智能航运数据处理的分布式弹性计算技术研究与应用
大缩小;⑵ 就近计算,即任务会被分配到存放了所需数据的节点进行计算;⑶ 这些小任务可以并行计算,彼此间几乎没有依赖关系。reduce阶段负责对map阶段输出的结果进行汇总,即将分割开的任务合并,将与一个key关联的一组中间数值集归约为一个更小的数值集,输出最终的计算结果。2.2.1 MapReduce执行机制[1-3]通过将Map调用的输入数据自动分割为M个数据片段的集合,Map被分布到多台机器上调用执行。输入的数据片段能够在不同的机器上并行处理。使用分区函数将Map调用产生的中间key值分成R个不同分区,Reduce调用也被分布到多台机器上执行。分区数量和分区函数由用户来指定。⑴ 计算程序首先调用的MapReduce库将输入文件分成M个数据片段,每个数据片段的大小一般从 16MB到64MB(可以通过备选参数来控制每个数据片段的大小)。然后计算程序在机群中创建大量的程序副本。⑵ 这些程序副本中有一个特殊的程序-master。副本中其他程序都是worker程序,由master分配任务。有M个map任务和R个reduce任务将被分
<<上一页 下一页>>
广州市越秀区图书馆版权所有。
联系电话:020-87673002
本站访问人数: