每个map任务处理大于12M(几百万记录)的数据效率肯定会好很多。 看上去貌似这两种有些矛盾,一个是要合并小文件一个是要把大文件拆成小文件,这点正是重点需要關注的地方 根据实际情况,控制map数量需要遵循两个原则:使大数据量利用合适的map数;使单个map任务处理合适的数据量;
同样的,在设置reduce个数的时候也需要考虑这两个原则:使大数据量利用合适的reduce数;使单个reduce任务处理合适嘚数据量;
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。