`
文章列表
从新复习hadoop,认真阅读hadoop源码,有兴趣的朋友可以加我:282215036

awk平时使用心得

    博客分类:
  • awk
1、cat exe1 | awk '{a[$1]+=$2}END{for(i in a) print i,a[i]}' aaa 6bbb 2ccc 4 2、awk '{a[$0]++}END{l=asorti(a);for(i=1;i<l;i++)print a[i]}' exe2aaabbccdddefffkmmnn 3、[@83_20 exercise]$ awk '{a[$1]++}END{l=asorti(a,b);for(i=1;i<l;i++)print b[i],a[b[i]]}' exe3      aa 2bb 2cc 3dd 4mm 2nn 1 4、什么是 ...
程序设计需要同步(synchronization),原因:1)复杂的功能要求的需要使用多线程编程,线程之间存在读写共享变量。2)读写共享变量(shared mutual variable),JVM的内存模型(Memory model: decide when and how changes made by one thread become visuble to others)受到其它因素干扰。3)对共享变量的操作非原子性。例如 i++;就不是原子操作,它分为两部分,(1) 读i (2) i+1写入内存。如果i是线程A和线程B共享的变量,线程A在操作(1)之后,线程调度器调度调度线程B执行i++ ...
乐淘CTO李勇:库存同步是难点   我的判断,除了一般的优化之外,最大的难点应该是库存同步问题。推测应该有一个全国唯一的核心库,负责维护所有车次所有座位的票务状态,完成库存查询、锁定、出入库操作。之前只是对内部的各售票点开放(估计有几万个),波动小的情况。突然对公众开放就出问题了,会达到百万并发,根本无法承受。做这种系统的,应该是跟铁道部有多年合作经验,善于做内部系统的集成公司(网上看是太极),不去评判其他,单纯从技术上看,他们对互联网大规模应用并没有经验,要知道淘宝、京东到应对这种压力经历了多少年的试错和优化,而他们一上来就搞这个,出问题是必然的。  
  转载链接:   http://wxmfly.iteye.com/blog/233421
这里提到男人应该具有的一些品质吧,偶然看到的,觉得说得有道理(尽管没做到的还很多),忍不住转一下。一:沉稳(1)不要随便显露你的情绪。(2)不要逢人就诉说你的困难和遭遇。(3)在征询别人的意见之前,自己先 ...

加油啦!

8月18日入职搜狐,负责汽车事业部数据。看来压力不小啊,加油干吧!
一。 iReport 中获取系统当前时间 1,选择TextField类型为 java.util.Date 2,在pattern中 点       在Date中选择你要的日期格式如下图   3,在TextField Expression中写 java.util.Calendar.getInstance().getTime() 如下图    
今天帮一同事调试程序,他们的报表工具用的是ireport4.0.2,在使用java bean 作为数据源时一直没找到,原因很简单:就是没找对所编译的class 路径。如果使用的eclipse来编译的话,一般class文件都放在项目/bin/class   下面截一个图:   最下面的一个是class 所存放的地方  

知足最好

 
钱多钱少,够吃就好。人丑人美,顺眼就好。人老人少,健康就好。家穷家富,和气就好。老公晚归,回来就好。老婆唠叨,顾家就好。孩子从小,就要教好。博士也好,卖菜也好。长大以后,心安就好。房屋大小,能住就好。名不名牌,能穿就好。两轮四轮,能驾就好。老板不好,能忍就好。一切烦恼,能解就好。坚持执着,放下最好。人的一生,平安就好。不是有钱,一定会好。心好行好,命能改好。谁是谁非,天知就好。修福修慧,来世更好。说这么多,明白就好。天地万物,随缘就好。很多事情,看开就好。人人都好,日日都好。你好我好,世界更好。总而言之,知足最好。
1.说话要用脑子,做事慎言,话多无益.讲话不要只顾一时痛快.信口开河,以为人家给你笑脸就是欣赏,没完没了的把掏心窝子的话都讲出来,结果让人家彻底摸清了家底.还偷笑你. 2.遇事不要急于下结论,即便有了答案也要等等,也许有更好的解决方式,站在不同的角度就有不同答案,要学会换位思维. 3.对小人一定要忍让,退一步海阔天空,实在不行把属于自己的空间也关给他们,站他们如莺燕舞般陶醉吧.大人大度量.惹着小人就等与惹了麻烦,所以要敬而远之. 4.这世道没有无缘无故的爱,也没有无缘无故的恨,不要参与评论任何人,做到心中有数就可以了.谁也没有理论依据来介定好人与坏蛋,其实就是利益关系的问题. 5.花掉真 ...
使用lzo压缩替换hadoop原始的Gzip压缩。相比之下有如下特点:我们这使用的是hadoop客户端。1.压缩解压的速度很快2.lzo压缩是基于block分块的。这样,一个大文件(在hadoop上可能会占用多个block),就可以有多个 MapReduce并行来进行处理。虽然Lzo的压缩比没有Gzip高,不过由于其前2个特性,在Hadoop上使用Lzo还是能整体提升集群的性能的。能提高效率的即是合理的。 接下来说说我遇到的问题:以下是各个配置1.Linux 83_20 2.6.18-128.el5 #1 SMP Wed Dec 17 11:41:38 EST 2008 x86_64 x86_ ...
网上有篇关于hive的partition的使用讲解的比较好,转载了: 一、背景 1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。 2、分区表指的是在创建表时指定的partition的分区空间。 3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。 二、技术细节 1、一个表可以拥有一个或者多
hive-default.xml<property>  <name>javax.jdo.option.ConnectionURL</name>  <value>jdbc:derby:;databaseName=metastore_db;create=true</value> 表示使用嵌入式的derby,create为true表示自动创建数据库,数据库名为metastore_db  <!--<value>jdbc:derby://192.168.0.3:4567/hadoopor;create=true</valu ...
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式: Java Integer/String, Hadoop IntWritable/Text
Global site tag (gtag.js) - Google Analytics