`

nutch-1.2在搜索HDFS过程中高并发的处理

 
阅读更多

紧接着昨天的一篇文档写下去。nutch-1.2结合hadoop搜索,在高并发的情况下,搜索的速度如何提升。

1、其实通过看nutch-1.2中的NutchBean源码程序不难发现,它在搜索的时候,有几个实现类,RPCSearchBean、DistributedSearchBean、SolrSearchBean。在RPCSearchBean中还有LuceneSearchBean,和NutchBean.这里我是使用的NutchBean.在搜索过程中,发出一个search的请求,hadoop接受到这个请求后,会从各个的slaves节点上收集信息,然后返回给master。master返回给nutch.原理是这个样子的。这里我是把FetchedSegments 中的getParseData 方法的同步代码去掉了,可以让大量的请求过来搜索。因为我在初始化的时候只打开一次HDFS的 index.

希望这些对大家的工作过程中有所帮助!

分享到:
评论

相关推荐

    nutch-1.2.war

    nutch官方简单案例,请版本是nutch-1.2.war

    nutch-1.2.part06

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch-1.2.part02

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nucth-1.2.part01 (该资源有10个包,共144M 完整nutch包 目录如下)

    Nutch是一个由Java实现的,...-rwx------+ 1 nutch-1.2.jar -rwx------+ 1 nutch-1.2.job -rwx------+ 1 nutch-1.2.war drwx------+ 61 plugins drwx------+ 10 src -rwx------+ 1 url.txt drwx------+ 8 webapps

    nutch-1.2.part07

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch-1.2.part05

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch-1.2.part03

    nutch Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎...

    nutch-1.2.part10

    Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎所有的...

    nutch-1.2.part08

    Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎所有的...

    nutch-1.2.part09

    Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降。 并且这很有可能进一步演变成为一个公司垄断了几乎所有的...

    nutch-1.2.part04

    Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜

    apache-nutch-1.4-bin.tar.gz

    Nutch 是一个开源Java 实现的搜索引擎。这里是它的安装包。

    apache-nutch-1.5.1-bin.tar.gz

    Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速构建所需系统。Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的...

    apache-nutch-2.3.1-src.tar.gz

    apache-nutch-2.3.1-src.tar.gz

    nutch配置nutch-default.xml

    nutch配置nutch-default.xml

    apache-nutch-1.6-bin.tar.gz最新版

    在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行以下命令: $cd D:/Downloads/...

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    apache-nutch-1.3 的源码包,需要的可以看下

    apache-nutch-2.2.1(Eclipse直接运行版)001

    apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...

    apache-nutch-1.4

    Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。Nutch目前最新的版本为version1.4。这个为nutch的最新版 1.4。

Global site tag (gtag.js) - Google Analytics