`
文章列表
hive中的distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,根据reduce的个数进行数据分发,默认是采用hash算法。 对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。 hive> select * from test09;OK100 tom200 mary300 kate400 timTime taken: 0.061 seconds hive> insert overwrite local directory ‘/home/hj ...

hive的sort by应用

    博客分类:
  • hive
在hive中不光有order by操作,还有个sort by操作。两者执行的都是排序的操作,但有存在很大的不同。还是用上次order by的例子来说明。 测试用例hive> select * from test09;OK100 tom200 mary300 kate400 timTime taken: 0.061 seconds hive> select * from test09 sort by id;Total MapReduce jobs = 1Launching Job 1 out of 1Number of reduce tasks not specified. Def ...

hive的order by应用

    博客分类:
  • hive
hive中的order by也是对一个结果集合进行排序,但是和关系型数据库又所有不同。这不同的地方也是两者在底层架构区别的体现。 hive的参数hive.mapred.mode是控制hive执行mapred的方式的,有两个选项:strict和nonstrict,默认值是nonstrict。这个两个值对order by的执行有着很大的影响。 测试用例hive> select * from test09;OK100 tom200 mary300 kate400 timTime taken: 0.061 seconds 我们先来看看nonstrict的情况。 hive> set h ...
我发现一直理解错了,我一直以为分布式索引和分布式搜索是两个不同的事情,其实是一样的.把索引分布在多台计算机上,不就是正好实现了分布式搜索吗?既然索引已经分布式存储了,,因为搜索就是基于索引的,那搜索就自然是分布式的啦。.前面看网上一些理解,一直以为分布式索 引和分布式搜索是两个独立分开的过程,不知道理解的对不对?    调研了一下,发现索引文件的数据结构相当复杂,这个好像是每提交一次建索引,就会将以前已生成的索引重新组织,而且还会生成新文件,所以如果采用在HDFS中追加写索引文件,那工作量将相当大,必须清楚了解索引文件数据结构及索引文件关联,下面有三篇对lucene索引结构的分析,我是没怎么 ...
网络蜘蛛现在开源的已经有好几个了,Larbin,Nutch,Heritrix都各有用户之地,要做一个自己的爬虫要解决好多个问题,比如调度算法、更新策略、分布式存储等,我们来一一看一下。一个爬虫要做的事主要有以下这些 从一个网页 ...

jvm研究第一篇

    博客分类:
  • jvm
最近在找工作,利用时间把jvm好好研究下,以前自己只是知道一点内存溢出,通常抛出OutOfmerry等等异常,印象中知道要改动-Xmx:*** 和-Xms这两个参数。其实它们里卖的药还挺深的,夜已经很深了快24:00了,今天先看个头,随后几篇文章会有更详细的阐述!
紧接着昨天的一篇文档写下去。nutch-1.2结合hadoop搜索,在高并发的情况下,搜索的速度如何提升。 1、其实通过看nutch-1.2中的NutchBean源码程序不难发现,它在搜索的时候,有几个实现类,RPCSearchBean、DistributedSearchBean、SolrSearchBean。在RPCSearchBean中还有LuceneSearchBean,和NutchBean.这里我是使用的NutchBean.在搜索过程中,发出一个search的请求,hadoop接受到这个请求后,会从各个的slaves节点上收集信息,然后返回给master。master返回给nutch. ...
nutch-1.2结合hadoop分布式搜索。 1、网上关于nutch分布式搜索的配置有些BLOG写的很详细了。有那些地方有疑问的,我这里也给一个连接<<nutch分布式搜索配置>> 2、在这里主要想写下工作过程当中遇到的一些问题: ------0------- ------1------- ------2------- ------3------- java.io.IOException: Filesystem closed     at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java: ...
时至今日,“Bigdata”(大数据)时代的来临已经毋庸置疑,尤其是在电信、金融等行业, 几乎已经到了“数据就是业务本身”的地步。在这其中,还挟裹着一个更为重要的趋势,即数据的社会化(Socialization of Data)。从博客论 ...
进入 $hadoop_home vi conf/core-site.xml 之前的配置是hdfs://192.168.10.145:9060 但是在hive命令行下面查询一直出错:错误信息如下: FAILED: Hive Internal Error: java.lang.RuntimeException(Error while making MR scratch directory - check filesystem config (null)) java.lang.RuntimeException: Error while making MR scratch directory - ...
一、环境 Hadoop 0.20.2、JDK 1.6、Linux操作系统 二、背景 上周五的时候,由于操作系统的原因,导致JDK出现莫名的段错误。无论是重启机器还是JDK重装都无济于事。更可悲的是,出问题的机器就是Master。当时心里就凉了半截,因为secondarynamenode配置也是在这个机器上(默认的,没改过)。不过万幸的是这个集群是测试环境,所以问题不大。借这个缘由,我将secondarynamenode重新配置到其他机器上,并做namenode挂掉并恢复的测试。 三、操作 1、关于secondarynamenode网上有写不错的文章做说明,这里我只是想说关键一点,它不是 ...
一、作用 1、combiner最基本是实现本地key的聚合,对map输出的key排序,value进行迭代。如下所示: map: (K1, V1) → list(K2, V2) combine: (K2, list(V2)) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3) 2、combiner还具有类似本地的reduce功能. 例如hadoop自带的wordcount的例子和找出value的最大值的程序,combiner和reduce完全一致。如下所示:map: (K1, V1) → list(K2, V2) combine: (K ...
一、环境 1、hadoop 0.20.2 2、操作系统Linux 二、背景 1、为何使用Partitioner,主要是想reduce的结果能够根据key再次分类输出到不同的文件夹中。 2、结果能够直观,同时做到对数据结果的简单的统计分析。 三、实现 1、输入的数据文件内容如下(1条数据内容少,1条数据内容超长,3条数据内容正常):kaka 1 28hua 0 26chao 1tao 1 22mao 0 29 22 2、目的是为了分别输出结果,正确的结果输出到一个文本,太短的数据输出到一个文本,太长的输出到一个文本,共三个文本输出。 3、代码如下:import org.apach ...
1.部署hadoop   和普通的datanode一样。安装jdk,ssh 2.修改host   和普通的datanode一样。添加namenode的ip 3.修改namenode的配置文件conf/slaves   添加新增节点的ip或host 4.在新节点的机器上,启动服务 Java代码   [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode    [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start tasktracker   ...
.修改conf/hbase-env.sh,添加jdk支持 Java代码   export JAVA_HOME=/usr/local/jdk        export HBASE_MANAGES_ZK=false   export JAVA_HOME=/usr/local/jdk export HBASE_MANAGES_ZK=false 2.拷贝zookeeper的配置文件zoo.cfg到HBase的CLASSPATH(官方推荐的方式 ...
Global site tag (gtag.js) - Google Analytics