分布式系统

数据科学家的七个秘密武器(zz)

2011年7月31日 阅读(381)

zz from:http://www.dbthink.com/?p=666&cpage=1#comment-596

source : The Seven Secrets of Successful Data Scientists

1.选择合适的工具,杀鸡不要随便用牛刀,打蚊子毋需高射炮.
2.对所有的数据做压缩, 原因, 我们处在一个IO密集的世界
3.拆分,拆分,还是拆分
4.对数据取样,不是每次分析都需要使用全量数据
5.拿来主义,善于从开源社区,寻找已经解决好的方案,毋需不断重建轮子
6.Data Locality, 让数据毋需移动即可进行分析
7.不要过于聪明,专注于解决你实际面临的困难,不要去解决太过于遥远的问题

You Might Also Like