hadoop基础

博客分类：

hadoop

Hadoop是什么？

答：是google的核心算法MapReduce的一个开源实现。用于海量数据的并行处理。

hadoop的核心主要包含：HDFS和MapReduce
HDFS是分布式文件系统，用于分布式存储海量数据。
MapReduce是分布式数据处理模型，本质是并行处理。

二、多少数据算海量数据？

答：个人认为，TB（1024GB）级别往上就可以算海量数据。

三、谁在使用hadoop？

N多大型互联网公司，这里列的比较全：
http://wiki.apache.org/hadoop/PoweredBy

在国内，包括中国移动、百度、网易、淘宝、腾讯、金山和华为等众多公司都在研究和使用它

四、用它来做什么？

答：海量数据处理。。。似乎有点虚呵呵，我能想到的用hadoop的地方：
1、最简单的，做个数据备份/文件归档的地方，这利用了hadoop海量数据的存储能力
2、数据仓库/数据挖掘：分析web日志，分析用户的行为（如：用户使用搜索时，在搜索结果中点击第2页的概率有多大）
3、搜索引擎：设计hadoop的初衷，就是为了快速建立索引。
4、云计算：据说，中国移动的大云，就是基于hadoop的
5、研究：hadoop的本质就是分布式计算，又是开源的。有很多思想值得借鉴。

分享到：

hive基础 | 云计算流媒体公司Gaikai获英特尔投资

2010-09-06 22:03
浏览 1220
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop基础

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hadoop基础

评论

发表评论

相关推荐

Java并发编程总结---Hadoop核心源码实例解读

使用hadoop的lzo问题!

secondarynamenode配置使用总结

Map/Reduce中的Combiner的使用

Map/Reduce中的Partiotioner使用

hadoop如何添加节点

hadoop如何恢复namenode

Hadoop删除节点（Decommissioning Nodes）

hadoop知识点整理

喜欢hadoop的同学们值得一看

hadoop优化

hadoop分配任务的问题

hadoop-FAQ

Apache Hadoop 0.21版本新功能ChangeNode

Hadoop关于处理大量小文件的问题和解决方法

hadoop常见错误及解决办法！

Hadoop节点热拔插

hadoop动态添加节点

欢迎大家讨论hadoop性能优化

hadoop错误之二：could only be replicated to 0 nodes, instead of 1

最近访客更多访客>>