`
cocoIT
  • 浏览: 48899 次
  • 性别: Icon_minigender_1
  • 来自: 福建
文章分类
社区版块
存档分类
最新评论

Nutch的抓取工作问题

 
阅读更多

现在碰到的棘手问题是,要对Nutch的fetch结果content进行媒介(天涯,网易等等)分类,比如:data/segements/content/part-00000/天涯data/segements/content/part-00000/网易 。。。我的想法是在fetch的outpath进行构造,但貌似行不通。。。

还有另一种方案,就是按Nutch的原格式,把数据都存储在同一个part-00000中,然后对采集回来的网页内容进行加标签标识,如:<tianya>...(网页源码)...</tianya>。。。感觉这种方案比较好。

还有一个问题是,nutch的输出文件格式,OutputFormat是二进制序列文件,后期要对采集回来的数据内容进行处理,这时原文件是二进制文件,但是代码解析标签或内容的时候要怎么处理这些二进制文件内容呢。。。


**************************************************************************************************************

已解决。。。

分享到:
评论

相关推荐

    基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip

    基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic ...

    开发基于 Nutch 的集群式搜索引擎

    介绍 Nutch 的背景知识,包括 Nutch 架构,爬虫和...然后示例说明 Nutch 爬虫如何抓取目标网站内容,产生片断和索引,并将结果存放在集群的2个节点上。最后使用 Nutch 检索器提供的 API 开发应用,为用户提供搜索接口。

    Nutch1.7二次开发培训讲义 之 腾讯微博抓取分析

    Nutch1.7二次开发培训讲义 之 腾讯微博抓取分析

    nutch 初学文档教材

    4.2 nutch工作流程.....23 5. nutch工作流程分析...25 5.1 爬虫...25 5.1.1 工作策略...25 5.1.2 工作流程分析....25 5.1.3 其它..27 5.2 索引...27 5.2.1 索引主要过程....27 5.2.2 工作流程分析....28 5.2.3 倒排...

    nutch-web-api:用于 Apache Nutch 抓取应用程序的 RESTFul API

    nutch-web-api 它是什么 nutch-web-api是 Apache Nutch 爬虫应用程序的 RESTFul API 实现。 这个项目完全是用 node.js 和 coffeescript 编写的,目的是简化使用并提高灵活性。 REST API 不是 apache nutch 应用程序...

    nutch平台的搭建过程

    nutch平台的详细搭建过程 配置环境 抓取 建立索引 查看结果

    Apache Nutch网络爬虫-其他

    &lt;/p&gt;&lt;p&gt;Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别...

    nutch搜索引擎数据获取

    Nutch搜索引擎数据获取1、 基本原理2、网络蜘蛛3、局域网抓取

    Nutch入门.rar

    5. nutch工作流程分析...25 5.1 爬虫...25 5.1.1 工作策略...25 5.1.2 工作流程分析....25 5.1.3 其它..27 5.2 索引...27 5.2.1 索引主要过程....27 5.2.2 工作流程分析....28 5.2.3 倒排索引(inverted ...

    windows7环境下配置nutch

    windows7的环境下将nutch成功运行 整个安装图片教程: 1 cygwin的安装 2 apache-nutch的安装 3 nutch实例抓取实例

    Lucene+Nutch本书源码+详细说明

    Lucene+Nutch本书源码+详细说明,研究搜索引擎具体抓取与解析等技术问题,有利于搜索引擎开发新手的熟悉与了解,难得的电子版,值得珍藏

    nutch二次开发学习笔记

    我们需要去抓取网页数据的时候我们就用nutch来爬取,我们对它进行二次开发使其更加符合我们的需求

    Seeker---A-Search-Engine:使用 Nutch 和 Hadoop 实现搜索引擎

    使用 Apache Nutch 抓取 40 个(体育和教育)域的网页。 倒排索引是使用 Apache Hadoop 从爬取的数据中构建的。 爬取的数据和倒排索引保存在nosql MongoDB数据库中,响应速度更快,扩展性更强。 Web 应用程序使用...

    Apache Nutch 网络爬虫.rar

    一、Nutch简介 Nutch是一个开源的网络爬虫框架,由Apache基金会开发和维护。它能够高效地抓取并处理海量数据,并提供了丰富的插件来支持各种数据源和处理方式。由于其高度可定制化和易于扩展的特性,Nutch被广泛...

    Nutch 安装与配置文档

    北京邮电大学研究生课程实验指导书。 在windows上配置测试Nutch 用于学习nutch配置的各种问题 分为本地抓取,局域网抓取和互联网抓取三部分

    nutch 详细分析(包括配置文件等)

    1 Nutch简介 2 1.1 nutch体系结构 2 2 抓取部分 3 2.1 爬虫的数据结构及含义 3 2.2 抓取目录分析 4 2.3 抓取过程概述 4 2.4 抓取过程分析 5 ………… 3 配置文件分析 3.1 nutch-default.xml分析 31 …………

    nutch-auth-example:使用 Nutch 对 mrs.org 进行身份验证和抓取的示例

    此 WIP Nutch 部署使用 Nutch 自动登录并抓取 。 运行build.sh以检出 Nutch 主干,构建它,并复制必要的配置文件。 完成后, cd dist使用新配置的 Nutch 发行版。 有关更新的配置文件,请参阅和 。 运行命令bin/...

    nutch-访问wap网站

    nutch在抓取wap网站时,对于一些网站是要添加相应的头来表明是否是手机访问,如x-up-calling-line-id。

    nutch配置与安装

    该文档主要介绍了nutch的安装与配置的过程,以及如何实现网内与往外的抓取。

    基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

Global site tag (gtag.js) - Google Analytics