TF-IDF与余弦相似性的应用（二）：找出相似文章

上一次，我用TF-IDF算法自动提取关键词。今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"Google新闻"在主新闻下方，还提供多条相似的新闻。为了找出相似的文章，需要用到"余弦相似性"（cosine similiarity）。下面，我举一个例子来说明，什么是"余弦相似性"。

2013-11-28 15:00
浏览 374
评论(0)

这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高等数学，普通人只用10分钟就可以理解，这就是我今天想要介绍的TF-IDF算法。

2013-11-28 14:58
浏览 391
评论(0)

MapReduce框架中PageRank算法的代码实现

主要包括5个类 PageRankNode：图中的节点类-代表一个页面 PageRankJob：实现分散各个节点的PR值的类 DistributionPRMass：实现dangling节点的PR值分散到其它节点的Job类 RangePartitioner：partition类将连续的节点分配到同一个reduce中 PageRankDirver：整个工作的驱动类（主函数） package com.zxx.PageRank; import java.io.IOException; import org.apache.hadoop.conf.Configu ...

2013-11-25 10:56
浏览 844
评论(0)

MapReduce实现的PageRank原理

PageRank手工计算得出的值见帖子 http://f.dataguru.cn/thread-17158-1-1.html 这个值有助于我们验证下面MR计算是不是正确首先假设有两个节点A和B 原始矩阵如tiger老师的幻灯片第九页 a=1 网页1和2保存在节点A上网页3和4保存在节点B上由于A在A上很容易计算1和2的出链根据MR的本地运算的思想，网页1和2的处理必在A上完成，B也同理那么我们可以设计Map函数，这个函数的作用有两：1、得到源矩阵 2、用源矩阵乘以列向量得到在A上需要计算的源矩阵： 0 0 1/3 0 1/3 1/2 1/3 1/2 ...

2013-11-25 10:45
浏览 373
评论(0)

玩转vsftpd服务器的四大高级配置

如果你想在你的Linux/Unix服务器上搭建一个安全、高性能、稳定性好的FTP服务器，那么vsftpd可能是你的首选应用。vsftpd意思为“very secure FTP daemon(非常安全的FTP进程)”，是一个基于GPL发布的类UNIX类操作系统上运行的服务器的名字（是一种守护进程），可以运行在诸如Linux、BSD、Solaris、HP-UX以及Irix等系统上面。vsftpd支持很多其他传统的FTP服务器不支持的良好特性。　　最新的vsftpd版本可在其官网获取：ftp://vsftpd.beasts.org/users/cevans/ 什么是vsftpd ...

2013-11-18 15:18
浏览 332
评论(0)

Hadoop集群的配置调优

一、背景 Hadoop的集群使用也有些时候了，不过都是小集群的使用（数量小于30台）。在这个过程中不断的进行着配置调优的操作。最早的时候，在网上也没有找到一些合适的配置调优方法，于是，我在这里列举一些基本的调优配置，以供参考。最后，还有一个我自己的测试环境的配置说明，也可以参看一下。二、环境和配置 1. 版本和环境 Ø Hadoop版本：apache发布的0.21 Ø 操作系统：Linux Ø JDK：1.6 Ø 网络环境为千兆网络 2. hdfs-site.xml配置文件 Ødfs.block.size 这个是块大小的设置，也就 ...

2013-11-15 17:07
浏览 309
评论(0)

VMware WorkStation的三种网络连接方式

版权声明：对于本博客所有原创文章，允许个人、教育和非商业目的使用，但务必保证文章的完整性且不作任何修改地以超链接形式注明原始作者、出处及本声明。博客地址：http://blog.csdn.net/shuxiao9058 原始作者：季亚一. 首先贴出本人在网络上找到与VMware网络连接相关的知识安装完虚拟机后，默认安装了两个虚拟网卡，VMnet1和VMnet8，其他的未安装（当然也可以手动安装其他的）。其中VMnet1是host网卡，用于host方式连接网络的。VMnet8是NAT网卡，用于NAT方式连接网络的。它们的IP地址是随机生成的，如果要用虚 ...

2013-11-15 17:05
浏览 395
评论(0)

mapreduce中map处理过程？参数如何解析传递给map方法？

1.首先介绍一下wordcount 在mapreduce框架中的对应关系大家都知道 mapreduce 分为 map 和reduce 两个部分，那么在wordcount例子中，很显然对文件word 计数部分为map，对 word 数量累计部分为 reduce；大家都明白 map接受一个参数，经过m ...

2013-11-15 17:03
浏览 666
评论(0)

集群中节点的datanode无法启动（转）

转载：http://xiaoxia001.iteye.com/blog/1279354 用三台centos操作系统的机器搭建了一个hadoop的分布式集群。启动服务后失败，查看datanode的日志，提示错误：ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in /var/lib/hadoop-0.20/cache/hdfs/dfs/data: namenode namespaceID = 240012870; data ...

2013-11-15 16:55
浏览 462
评论(0)

hadoop中的排序（转）

1：shuffle阶段的排序（部分排序） shuffle阶段的排序可以理解成两部分，一个是对spill进行分区时，由于一个分区包含多个key值，所以要对分区内的<key,value>按照key进行排序，即key值相同的一串<key,value>存放在一起，这� ...

2013-11-15 16:53
浏览 387
评论(0)

Hadoop 学习笔记(转)

1. Hadoop框架的两个重点：MapReduce 和HDFSMapReduce：（1）在map进行之前，需要对输入文件在客户端先进行“分片”，然后将分片信息上传到HDFS。（2）分片上传结束后，jobtracker拿到分片信息，来分配map,reduct task；map对每条记录的输出以<key,value> 的形式输出。（3）如果定义了combiner，则在本地会对map处理的结果进行处理：对相同key的聚合，对key的排序，value的迭代。combiner完成类似于本地reduce的功能。（4）在进入reduce阶段之前，系统会完成一些列操 ...

2013-11-15 16:51
浏览 427
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论