提醒:分布式计算开源框架Hadoop入门实践(三)(转) 2011年04月14日

演示:以MSN订阅提醒为例 订阅到哪吒,有更新提醒我
哪吒机器人提醒:
提醒:web蓝草博客--LanCao's Web Blog
【标题】分布式计算开源框架Hadoop入门实践(三)(转)
【摘要】hadoop基本流程一个图片太大了,只好分割成为两部分。根据流程图来说一下具体一个任务执行的情况。在分布式环境中客户端创建任务并提交。inputformat做map前的预处理,主要负责以下工作:验证输入的格式是否符合jobconfig的输入定义,这个在实现map和构建conf的时候就会知道,不定义可以是writable的任意子类。将input的文件切分为逻辑上的输入inputsplit,其实这就是在上面提到的在分布式文件系统中blocksize是有大小限制的,因此大文件会被划分为多个block。通过recordreader来再次处理inputsplit为一组records,输出给map。(inputsplit只是逻辑切分的第一步,但是如何根据文件中的信息来切分还需要recordreader来实现,例如最简单的默认方式就是回车换行的切分)recordreader处理后的结果作为map的输入,map执行定义的map逻辑,输出处理后的key和value对应到临时中间文件。combiner可选择配置,主要作用是在每一个map执行完分析以后,在本地优先作reduce的... (04-14 12:30)
收藏 |  评论 |  推荐给好友  | 
本文共有 0 次分享
评论
共有 - 条评论


我要反馈