zz from:http://www.dbthink.com/?p=666&cpage=1#comment-596
source : The Seven Secrets of Successful Data Scientists
1.选择合适的工具,杀鸡不要随便用牛刀,打蚊子毋需高射炮.
2.对所有的数据做压缩, 原因, 我们处在一个IO密集的世界
3.拆分,拆分,还是拆分
4.对数据取样,不是每次分析都需要使用全量数据
5.拿来主义,善于从开源社区,寻找已经解决好的方案,毋需不断重建轮子
6.Data Locality, 让数据毋需移动即可进行分析
7.不要过于聪明,专注于解决你实际面临的困难,不要去解决太过于遥远的问题