《
搜索引擎知识:网页的查重技术》文章地址:http://www.tfxk.com/zixun/0416363E2013.htm
特征抽取结束后,就须要进行特征比较,因网页查重第二步就是相似度计算和评价。
“I-Match算法”是不依附于完整的信息剖析,而是应用数据聚集的统计特征来抽取文档的主要特征,将非重要特点摈弃。
“Shingle算法”通过抽取多个特征词汇,比较两个特征集合的相似程度实现文档查重。
3.消重
1.特征抽取
一、特征抽取。
三、消重。
咱们在判定相似物的时候,个别是才干用不变的特征进行对照,文件查重第一步也是进行特征抽取。也就是将文档内容分解,由若干组成文档的特征集合表现,这一步是为了方面后面的特征比较计算相似度。
I-Match算法的特征只有一个,当输入一篇文档,依据词汇的IDF值(逆文本频率指数,Inverse document frequency缩写为IDF)过滤出一些要害特征,即一篇文章中特殊高和特别低频的词汇往往不能反映这篇文章的实质。因而通过文档中去掉高频和低频词汇,并且计算出这篇文档的独一的Hash值(Hash简略的说就是把数据值映射为地址。把数据值作为输入,网站开发,经计算后即可得到地址值。),那些Hash值雷同的文档就是反复的。
4、两个页面部门主要相同但格式不同。
实现方法:
1、两个页面内容格局完全相同。
特征抽取有许多方法,我们这里主要说两种比较经典的算法,“I-Match算法”、“Shingle算法”。
网页查重,首先将网页收拾成为一个存在题目和注释的文档,来便利查重。所以网页查重又叫“文档查重”。“文档查重”普通被分为三个步骤,
二、相似度计算跟评估。
1993年Arizona大学的Manber(Google现副总裁、工程师)推出了一个sif工具,寻找相似文件。1995年Stanford大学的Brin(Sergey Brin,Google开创人之一)和Garcia-Molina等人在“数字图书观”工程中首次提出文本复制检测机制COPS(Copy Protection System)系统与相应算法[Sergey Brin et al 1995].之后这种检测重复技术被利用到搜索引擎中,基础的中心技术既比较相似,成都网站开发公司。
网页和简单的文档不同,网页的特别属性具备内容和格式等标志,因此在内容和格式上的相同相似形成了4种网页相似的类型。
3、两个页面局部内容相同并且格式相同。
2.相似度计算和评价
网页查重技术来源于复制检测技术,即判断一个文件内容是否存在剽窃、复制另外一个或多个文件的技巧。
网页查重工作是体系中不可缺乏的,删除了重复的页面,所以搜寻引擎的其余环节也会减少良多不用要的麻烦,节俭了索引存储空间、减少了查问本钱、进步了PageRank计算效力。方便了搜索引擎用户。
2、两个页面内容相同,但格式不同。
Shingle算法是抽取多个特征进行比较,所以处置起来比较庞杂一些,比拟的办法是完全一致的Shingle个数。而后除以两个文档的Shingle总数减去一致的Shingle个数,这种方式盘算出的数值为“Jaccard 系数”,它能够断定集合的类似度。Jaccard 系数的计算方法集合的交加除以集合的并集。
对搜索引擎来说,重复的网页内容是十分有害的,成都网站建设报价。重复网页的存在象征着这些网页就要被搜索引擎多处理一次。更有害的是搜索引擎的索引制造中可能会在索引库里索引两份相同的网页。当有人查询时,在搜索成果中就会呈现重复的网页链接。所以无论是从搜索休会仍是系统效率检索品质来说这些重负网页都是有害处的。
对于删除重复内容,搜索引擎斟酌到众多收录因素,所以使用了最简单的最适用的方法。先被爬虫抓取的页面同时很大水平也保障了优先保存原创网页。
(责任编辑:网站建设)
搜索引擎知识:网页的查重技术相关文章