`
文章列表
前提是安装完成hadoop 1)下载zookeeper-3.2.2.tar.gz 解压到每台服务器的/data/soft 解压 Java代码   root@master:/data/soft# tar zxvf zookeeper-3.2.2.tar.gz   root@master:/data/soft# tar zxvf zookeeper-3.2.2.tar.gz 建立软连 Java代码   root@master:/data/soft# ln -s zookeeper-3.2.2 zookeeper   root@master ...

hbase配置手册

Hbase配置手册 1)下载hbase 解压到每台服务器的/data/soft 解压 Java代码   root@master:/data/soft# tar zxvf hbase-0.90.0.tar.gz   root@master:/data/soft# tar zxvf hbase-0.90.0.tar.gz 建立软连 Java代码   root@master:/data/soft# ln -s hbase-0.90.0 hbase   root@master:/data/soft# ln -s hbase-0.90.0 hbase
Namenode恢复 1.修改conf/core-site.xml,增加 Xml代码   <property>           <name>fs.checkpoint.period</name>              <value>3600</value>              <description>The number of seconds between two periodic checkpoints.  </description>  
1.集群配置    修改conf/hdfs-site.xml文件 Xml代码   <property>     <name>dfs.hosts.exclude</name>     <value>/data/soft/hadoop/conf/excludes</value>     <description>Names a file that contains a list of hosts that are      not permitted to connect to the na ...

hadoop知识点整理

1. Hadoop 是什么? Hadoop 是一种使用 Java 编写的分布式计算平台。它吸收了 Google 文件系统和 MapReduce 等产品的特性。详情参见 HadoopMapReduce。 2. Hadoop 运行于什么平台? 1. Java 1.5.x 或更高版本(推荐使用 Sun 的实现版本);2. 支持 Linux 与 Windows 操作系统。在 BSD、Mac OS/X 及 OpenSolaris 上也可工作。(对于 Windows,需要安装 Cygwin)。 2.1 在 Windows 上构建、测试 Hadoop 在 Windows 上构建的 Hadoop 可 ...
1、nutch-1.x中在crawl.java中。最后有这么一句话。  indexer.index(indexes, crawlDb, linkDb, Arrays.asList(HadoopFSUtil.getPaths(fstats))); 它会把crawldb,linkdb以及segments,进行建立索引。生成文件 indexes,里面包含了part-00000,.....根据自己的depth而定。 2、 dedup.dedup(new Path[] { indexes });fstats = fs.listStatus(indexes, HadoopFSUtil.getPass ...
海量数据正在不断生成,对于急需改变自己传统IT架构的企业而言,面对海量数据,如何分析并有效利用其价值,同时优化企业业务已成为现代企业转型过程中不可避免的问题。 作为海量数据处理的一个重要工具——Hadoop也开始受到了越来越多人的关注。第四届Hadoop大会——Hadoop Summit 2011大会6月29日在Santa Clara举行了,备受关注的Yahoo新成立的子公司——Hortonworks在此次大会上亮相,号称比Hadoop快三倍的MapR也亮相了、同时一些新的项目比如HCatalog等也受到了技术人员的关注。我们将此次会议的一些重要信息整理如下,提供给Hadoop的从业者们参 ...

hadoop优化

一. conf/hadoop-site.xml配置, 略过. 二. 注重job重用, 主要是设计key和自定义OutputFormat, 将能合并的mapred job合并.举例 : 用户访问行为(userid, ip, cookie), 分别统计每个用户的ip数和cookie数.(a). 把userid和字段存储到key中public class UserKey implements WritableComparable<UserKey>{int userId;//useridbyte field;//0代表ip, 1代表cookie@Overridepublic int comp ...
转帖:http://jushi1988.iteye.com/blog/693188   ---  2010-06-18 17:00 代码修改: 修改重复创建索引,添加双字段高亮。      今天发一个简单的和数据库交互的Lucene示例,只是初步的靠Lucene自带的分词实现中文分词,效果肯定没有网上琳琅的分词器相媲美,只为了示例,用了自带的高亮。页面不好看,将就一下哦。     主要是由 Spring + Struts1 + Mysql 5 实现, 只是为了实现功能。请各位大侠拍砖。     好了,不多说了。贴代码:       1. T_ARTICLE 表 Java代码  ...
nutch实用的分词是默认的,对中文支持的不是很好。 网上有很多对中文分词的介绍,这里就不再细讲了,主要说下:如何在nutch中加入中文的分词,两种办法: 1、插件形式。灵活 2、改动nutch源码,【偷懒】 详细的可以打开附件看看。

hadoop-FAQ

hadoop基础,挺详细的。希望对大家有用!
差不多有一个多月没写东西了,最近比较忙!还是研究数据一些东西。收获比较大!有时间我会把东西整理下发到上面,希望对大家有所帮助!有没有对python研究的博友们,交流下!282215036
Apache Hadoop 0.21.0 在2010年8月23日release了。Cloudera的Tom White哥(OReilly.Hadoop.The.Definitive.Guide第一版的作者)已经将该版本对比0.20的修改进行了整理,记录下来以作备忘。 apache社区上一个release的版本还是0.20.0版本,还是在去年的四月份 release的。所以这个版本中引入了许多新的功能,也有许多新的改进。根据tom哥的统计,在hadoop Common,HDFS,MapReduce三个模块中,总共有超过1300多个改进的issue在JIRA上讨论。但是,就像以前所有的‘.0’版本 ...
小文件指的是那些size比HDFS 的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录 ...

挣钱养家

如果各位有私活的话忙不过来,可以通过QQ(282215036)联系我!晚上下班回家和周末我都有时间。 不为别的,就想多干点活,挣点钱养家!
Global site tag (gtag.js) - Google Analytics