`

mapreduce的原理详解

阅读更多

接前一篇博客

以前的文章中有关于mapreduce的工作原理:http://p-x1984.iteye.com/blog/702486

记住一点:Map的输出既是Reduce的输入。即:

Map:<k1,v1> ->list<k2,v2>

Reduce:<k2,list<v2>> -><k3,v3>

1) 在启动map函数前,需要对输入文件进行“分片”,也就是把所要输入的文件copy到HDFS中。
2) 在分片结束后,启动job就开始读取HDFS中的内容了,map对每条记录的输出以<key,value> pair的形式输出。
3) 在进入reduce阶段之前,还要将各个map中相关的数据(key相同的数据)进过洗牌,排序,reduce,归结到一起,发往一个reducer。
4) 进入reduce阶段。相同的key的map输出会到达同一个reducer,reducer对key相同的多个value进行“reduce操作”.

大家如果有兴趣的可以和我一起讨论!

分享到:
评论
2 楼 p_x1984 2011-01-07  
多谢提醒!
1 楼 lance_123 2011-01-07  
是在客户端先分好片,然后将分片信息上传到hdfs,然后jobtracker拿到分片信息,来分配map,reduct task的。

相关推荐

    17_尚硅谷大数据之MapReduce框架原理1

    3.2 InputFormat 数据输入 3.2.1 Job 提交流程和切片源码详解 3.2.2 FileInputFormat 切片机制

    BigTable原理详解

    BigTable是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库,该pdf详细解释了bigtable的原理。 BigTable是非关系的数据库,是一个稀疏的、分布式的、持久化存储的多维度排序Map。Bigtable...

    Hadoop从入门到上手企业开发

    013 MapReduce 架构讲解和MapReduce思想原理讲解 014 Apache Hadoop 三种安装部署模式讲解 015 Apache Hadoop 单机(本地)模式安装部署与测试 016 Hadoop 伪分布式安装部署 017 查看Hadoop 日志以及日志的格式和...

    Hadoop大数据开发与性能调优实战培训课程-Hadoop组件详解.ppt

    共59页,主要内容: 1、理解HDFS原理 2、掌握mapreduce原理和开发 3、应用举例讲解

    Hadoop应用开发技术详解

    第6章分析了MapReduce的工作原理;第7章讲解了如何利用Eclipse来编译Hadoop的源代码,以及如何对Hadoop应用进行测试和调试;第8~9章细致地讲解了MapReduce的开发方法和高级应用;第10~12章系统地讲解了Hive、HBase...

    Hadoop应用开发技术详解(中文版)

    第6章分析了MapReduce的工作原理;第7章讲解了如何利用Eclipse来编译Hadoop的源代码,以及如何对Hadoop应用进行测试和调试;第8~9章细致地讲解了MapReduce的开发方法和高级应用;第10~12章系统地讲解了Hive、HBase...

    Hive SQL 编译过程详解

    1、MapReduce实现基本SQL操作的原理 1.1 Join的实现原理 1.2 Group By的实现原理 1.3 Distinct的实现原理 2.1 Phase1 SQL词法,语法解析 2.1.1 Antlr 2.1.2 抽象语法树AST Tree 2.1.3 样例SQL ........... 2.3 Phase...

    Hadoop指南、源码等6本

    内含Hadoop权威指南第三版和第四版,Hadoop技术内幕Yarn与common与Hdfs架构设计原理,Mapreduce详解等6本书

    Hadoop应用开发技术详解书籍

    《Hadoop应用开发技术详解》一书由资深Hadoop技术专家撰写,系统、全面、深入地讲解了Hadoop开发者需要掌握的技术和知识,包括HDFS的原理和应用、Hadoop文件I/O的原理和应用、MapReduce的原理和高级应用、MapReduce...

    hive入门级详解

    hive入门级详解,包括数仓与传统数据库的比对,hive的存储结构与存储原理,分区分桶、hql如何转换成mapreduce、UDF自定义函数等

    详解HBase架构原理

    Google运行MapReduce来处理BigTable中的海量数据,HBase同样利用HadoopMapReduce来处理HBase中的海量数据;GoogleBigTable利用Chubby作为协同服务,HBase利用Zookeeper作为协同服务。HBase中的每一张表就是所谓的...

    一文详解Spark基本架构原理

    文章主要通过八个方面全面介绍了spark的架构原理,更多内容请看全文。ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的...

    Hadoop应用开发技术详解.part1.rar

    资深Hadoop技术专家撰写,从开发者角度对Hadoop分布式文件系统、Hadoop文件I/O、Hive、HBase、Mahout,以及MapReduce的工作原理、编程方法和高级应用进行系统深入的讲解内容细致,包含大量用于实际生产环境中的案例...

    Hadoop,Hive,Hbase等框架详解

    该文档保护了目前比较流行的大数据平台的原理过程梳理。Hadoop,Hive,Hbase,Spark,MapReduce,Storm

    【推荐】最强大数据学习与最佳实践资料合集(基础+架构+数仓+治理+案例)(100份).zip

    HDFS-part2-原理详解 HDFS核心内容及命令-2020 hive安装 hive语法和常用函数 Kafka安装 kylin安装 mapreduce调优指南 sqoop安装 二、架构篇 Flink-1.11 Hive集成与批流一体 ClickHouse在苏宁用户画像场景的实践 ...

    大数据课程体系.pdf

    Java 基础 JAVA 开发基础知识 Eclipse 开发环境 多线程技术 Socket 网络技术 Regular Expression Java 反射技术 各种实战设计模式 面向对象设计原则详解 Java collection Reflection JVM 原理与配置、调优 Java 设计...

    HadoopLearning:大数据学习教程

    分片混洗详解 3、剩余编写 HDFS入门、深入、Shell访问、Java API操作 MapReduce入门、深入、编程基础、编程进阶、实战分析和训练 Yarn入门、原理剖解和应用场景 Hbase存储原理、RowKey设计、协处理、Shell访问、Java...

    分布式计算框架Hadoop原理及架构全解

    本文来自于csdn,这篇文章讲解了分布式计算框架的核心内容、架构图详解,运用流程等Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。最核心的模块包括HadoopCommon、HDFS与MapReduce。HDFSHDFS是...

Global site tag (gtag.js) - Google Analytics