Nutch的抓取工作问题 - cocoIT - ITeye博客

`

cocoIT

浏览: 48899 次
性别:
来自: 福建

最近访客更多访客>>

HincZhang

jack1007

画个逗号给明天qu

xiaoyulong1988

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (101)

社区版块

存档分类

最新评论

joyhen：感谢，要学的东西好多啊
Apache Hadoop生态系统
java大风车： fffffffffffffffffffffffffffff
Apache Hadoop生态系统

Nutch的抓取工作问题

阅读更多

现在碰到的棘手问题是，要对Nutch的fetch结果content进行媒介（天涯,网易等等）分类，比如：data/segements/content/part-00000/天涯data/segements/content/part-00000/网易。。。我的想法是在fetch的outpath进行构造，但貌似行不通。。。

还有另一种方案，就是按Nutch的原格式，把数据都存储在同一个part-00000中，然后对采集回来的网页内容进行加标签标识，如：<tianya>...(网页源码)...</tianya>。。。感觉这种方案比较好。

还有一个问题是，nutch的输出文件格式，OutputFormat是二进制序列文件，后期要对采集回来的数据内容进行处理，这时原文件是二进制文件，但是代码解析标签或内容的时候要怎么处理这些二进制文件内容呢。。。

**************************************************************************************************************

已解决。。。

分享到：

Nutch Crawl执行过程解析 | Webdriver中关于driver.navigate().to()和 ...

2013-12-11 16:09
浏览 309
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip: 基于Apache Nutch 1.8和Htmlunit组件，实现对于AJAX加载类型页面的完整页面内容抓取解析。 According to the implementation of Apache Nutch 1.8, we can't get dynamic ...

开发基于 Nutch 的集群式搜索引擎: 介绍 Nutch 的背景知识，包括 Nutch 架构，爬虫和...然后示例说明 Nutch 爬虫如何抓取目标网站内容，产生片断和索引，并将结果存放在集群的2个节点上。最后使用 Nutch 检索器提供的 API 开发应用，为用户提供搜索接口。

Nutch1.7二次开发培训讲义之腾讯微博抓取分析: Nutch1.7二次开发培训讲义之腾讯微博抓取分析

nutch 初学文档教材: 4.2 nutch工作流程.....23 5. nutch工作流程分析...25 5.1 爬虫...25 5.1.1 工作策略...25 5.1.2 工作流程分析....25 5.1.3 其它..27 5.2 索引...27 5.2.1 索引主要过程....27 5.2.2 工作流程分析....28 5.2.3 倒排...

nutch-web-api:用于 Apache Nutch 抓取应用程序的 RESTFul API: nutch-web-api 它是什么 nutch-web-api是 Apache Nutch 爬虫应用程序的 RESTFul API 实现。这个项目完全是用 node.js 和 coffeescript 编写的，目的是简化使用并提高灵活性。 REST API 不是 apache nutch 应用程序...

nutch平台的搭建过程: nutch平台的详细搭建过程配置环境抓取建立索引查看结果

Apache Nutch网络爬虫-其他: </p><p>Nutch诞生于2002年8月，是Apache旗下的一个用Java实现的开源搜索引擎项目，自Nutch1.2版本之后，Nutch已经从搜索引擎演化为网络爬虫，接着Nutch进一步演化为两大分支版本：1.X和2.X，这两大分支最大的区别...

nutch搜索引擎数据获取: Nutch搜索引擎数据获取1、基本原理2、网络蜘蛛3、局域网抓取

Nutch入门.rar: 5. nutch工作流程分析...25 5.1 爬虫...25 5.1.1 工作策略...25 5.1.2 工作流程分析....25 5.1.3 其它..27 5.2 索引...27 5.2.1 索引主要过程....27 5.2.2 工作流程分析....28 5.2.3 倒排索引(inverted ...

windows7环境下配置nutch: windows7的环境下将nutch成功运行整个安装图片教程： 1 cygwin的安装 2 apache-nutch的安装 3 nutch实例抓取实例

Lucene+Nutch本书源码+详细说明: Lucene+Nutch本书源码+详细说明，研究搜索引擎具体抓取与解析等技术问题，有利于搜索引擎开发新手的熟悉与了解，难得的电子版，值得珍藏

nutch二次开发学习笔记: 我们需要去抓取网页数据的时候我们就用nutch来爬取，我们对它进行二次开发使其更加符合我们的需求

Seeker---A-Search-Engine:使用 Nutch 和 Hadoop 实现搜索引擎: 使用 Apache Nutch 抓取 40 个（体育和教育）域的网页。倒排索引是使用 Apache Hadoop 从爬取的数据中构建的。爬取的数据和倒排索引保存在nosql MongoDB数据库中，响应速度更快，扩展性更强。 Web 应用程序使用...

Apache Nutch 网络爬虫.rar: 一、Nutch简介 Nutch是一个开源的网络爬虫框架，由Apache基金会开发和维护。它能够高效地抓取并处理海量数据，并提供了丰富的插件来支持各种数据源和处理方式。由于其高度可定制化和易于扩展的特性，Nutch被广泛...

Nutch 安装与配置文档: 北京邮电大学研究生课程实验指导书。在windows上配置测试Nutch 用于学习nutch配置的各种问题分为本地抓取，局域网抓取和互联网抓取三部分

nutch 详细分析(包括配置文件等): 1 Nutch简介 2 1.1 nutch体系结构 2 2 抓取部分 3 2.1 爬虫的数据结构及含义 3 2.2 抓取目录分析 4 2.3 抓取过程概述 4 2.4 抓取过程分析 5 ………… 3 配置文件分析 3.1 nutch-default.xml分析 31 …………

nutch-auth-example:使用 Nutch 对 mrs.org 进行身份验证和抓取的示例: 此 WIP Nutch 部署使用 Nutch 自动登录并抓取。运行build.sh以检出 Nutch 主干，构建它，并复制必要的配置文件。完成后， cd dist使用新配置的 Nutch 发行版。有关更新的配置文件，请参阅和。运行命令bin/...

nutch-访问wap网站: nutch在抓取wap网站时，对于一些网站是要添加相应的头来表明是否是手机访问，如x-up-calling-line-id。

nutch配置与安装: 该文档主要介绍了nutch的安装与配置的过程，以及如何实现网内与往外的抓取。

基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件.zip: 爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...

Global site tag (gtag.js) - Google Analytics