(一):流程综述:
【1】:inject start urls
注入抓取URL。因为Nutch的抓取程序是要抓取网页,而定位到某个网页需要制定一个URL,所以Nutch按照广度遍历策略进行抓取,会根据一开始指定的URL,也可以是一个URLS集合,以此基础进行抓取工作。
【2】:generate segment
生成segment。Nutch抓取程序需要抓取到很多的页面,那么具体是哪些页面的?当然,在互联网上是通过URL来定位的。这一步骤主要是对上一步提交的URL集合进行分析,确定抓取任务的详细信息。
【3】fetch list
分析提交的URL集合之后,建立一个抓取任务列表。在以后的抓取工作中就可以根据预处理的此列表进行工作了。
【4】:www
这是通过访问万维网(www),实现抓取工作。
【5】:fetch content
开始根据前面生成的抓取任务列表中指定的URL对应的页面,这时候开始抓取工作了。
【6】:fetched content
需要将抓取到的这些页面文件存放到指定的位置,这些页面文件可以是经过简单预处理以后而被存储到文件系统中,也可以是原生的网页文件,以备后继流程基于这些文件来进一步处理,比如分词,建立索引。
content parser
内容解析器。抓取到的页面文件被提交到这里,实现对页面文件的处理,包括页面文件的分析和处理。
【7】:parse content
当然,我们抓取的数据是结构和内容非常复杂的数据,而我们感兴趣的主要是文件的内容,因为基于关键字检索的搜索引擎的实现,都是根据文本内容来实现的。
【8】:parsed text & data
通过content parser解析器,最终获取到的就是文本内容和其它一些可能需要用到的数据。有了这些可以识别的文本内容和数据,就可以基于此来建立索引库,而且需要将本次抓取任务的详细信息登录到crawlDB,为下次抓取任务提供有用的信息(比如:避免重复抓取相同的URL指定的页面)。
因此接下来分为两个方向:一个是索引,一个是更新crawlDB并继续执行抓取任务:
【9】:indexing
这是一个索引的过程,对分析处理完成并提交的文本及其数据建立索引,通过索引文件就可以实现信息的检索功能了。建立索引过程中,由于是基于Lucene的,所以用到了Analyzer分析器,对预处理的文件进行分析、过滤、分词等等,最后将写入到索引库,供搜索程序工作使用。
【10】:update crawlDB with new extracted urls
根据网页分析处理获取到的信息,更新crawlDB(爬行数据库),并根据提取到的抓取任务已经注入的URLs循环执行抓取任务。
|
相关推荐
描述Nutch的工作流程,介绍Nutch对页面获取、分析、建立索引的过程。
Nutch爬虫工作流程及文件格式详细分析!!!!!
Nutch爬虫工作流程及文件格式详细分析,文档不大
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析
4.2 nutch工作流程.....23 5. nutch工作流程分析...25 5.1 爬虫...25 5.1.1 工作策略...25 5.1.2 工作流程分析....25 5.1.3 其它..27 5.2 索引...27 5.2.1 索引主要过程....27 5.2.2 工作流程分析....28 5.2.3 倒排...
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
里面描述了Nutch的基本流程,Nutch与eclipse的结合,Nutch与Solr的结合
nutch 搜索模块流程 详细简述nutch搜索详细过程
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
eclipse配置nutch,eclipse配置nutch
nutch入门教程,nutch入门安装流程
Nutch 高级 插件是开发 多Nutch内部的流程有很好的解释和说明
nutch使用&Nutch;入门教程 pdf
nutcher 是 Apache Nutch 的中文教程,在... Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit 文档截图:
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对...
nutch的基本命令,让你更容易操作nutch,使其在你的掌握之中
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
nutch1.2测试文档
nutch插件,安装nutch插件,mysql与nutch