网页的自动聚类方法总结

时间:2015-06-03 09:56来源:未知作者:网站建设点击: 次

《网页的自动聚类方法总结》文章地址：http://www.tfxk.com/newsgonggao/0603393042015.htm

密度测试法的原理是如果某个网页的附近集聚有较多的网页,并且在其周围较广的范围内也分布有一定的网页,那么该网页可作为一个聚类中心。在密度测试中,网页被划分为三种类型:未聚类网页,即还没有被集聚到任何一类中的网页;松散型网页,它们与己经存在的类中心相似度比较小,尚不具备被聚于某类的条件;己被聚类的网页。在聚类开始时,所有的网页都可以看作未聚类网页。用Di表示某篇网页,如果它同时满足以下两个条件,则可以将Di作为类别中心:至少有nl篇网页,它们与Di的相似系数都超过Tl;至少有n2篇网页,它们与Di的相似系数都超过T2,其中TI≥T2且nl≤n2。TI、T2、nl、n2都是事先给定的参数。聚类的过程如下:在未聚类网页中任取一篇,把它作为聚类中心并对其进行密度测试,测试范围为尚未聚类和松散型的网页。如果测试失败,即被测试的网页周围不具有指定数量的网页,则该网页被作为松散型网页。然后在未聚类网页中重新选取网页测试聚类中心;如果测试成功,即被测试网页周围集聚一定预定值范围内的相似网页,则该网页被作为一个聚类中心,并将其中相似度超过Tl的网页视为已聚类网页,对于相似度小于Tl又大于T2的网页,视为松散型网页,其他网页不改变原有类型。聚类过程一直持续下去到没有未聚类网页为止。最后将剩下的松散型网页就近聚集到己存在的类别中。

逆中心聚类法与单遍聚类法比较类似,具体过程如下:任取一篇网页作为第一个聚类中心,计算剩下的网页到该网页的距离,距离最大的作为第二个聚类中心。计算所有非聚类中心的网页到每个聚类中心的距离,将每一篇网页到每个中心距的最小距离求出,选择出最大的最小中心距者作为新的聚类中心。当然,这个还要结合所定义的中心距离制约机制等其它条件。

单遍聚类法是按照一定的顺序从待分类的网页集合中取出一篇网页,任意赋予它一个新的类别,其标引向量作为该新类的聚类中心向量,此后取出的各篇网页与该类中心向量进行运算得到相似系数,当相似系数大于给定的一个预定值的时候,就将该网页归入此类,同时调整类中心向量。如果相似系数不在给定的预定值范围内,则该网页就另立新类并且创建该类中心向量。要处理的每一篇网页依次与已有的类中心向量进行比较,将其归入相似度最大(且在预定值范围之内)的类中,并且及时调整该类的中心向量。
网页的自动聚类一般包括四个步骤：

(1)网页表示:包括特征抽取和特征选择。特征选择是选择那些最具有区分性的特征,也就是最能把不同类别区分开来的特征,而不是大多数对象都具有的特征。

(2)相似度计算。主要根据网页表示的距离函数来定义。

(3)聚类:根据网页表示和相似度计算的结果,按照一定的规则将聚类网页分成不同的类。

(4)给出聚类的标识。在最后形成的每一类中抽取一定具有代表性的特征,作为该类的标识。

常用的聚类方法有单遍聚类法、逆中心距聚类法、密度测试法、图聚类法等。下面对以上方法做一简要介绍：

成都天府星空网络科技有限公司专业从事于网站建设8年，一条龙建站服务，致力于成都网站建设，成都网站制作，成都做网站，成都网页设计。详询：028-65585480

(责任编辑：网站建设)
网页的自动聚类方法总结相关文章

上一篇：彻底解决网站存在的内容重复度的方法！下一篇：成都做网购平台的几个重要环节
回到顶部

星空云主机

产品核心优势

1880元星空网站

VIP客服中心

数据安全中心

6年经验金牌口碑

5000例精品案例

卓越商务型

黄金品牌型

豪华气派型

至尊超强型

自助估价

1880元特惠套餐

研发中心简介

产品下载中心

星空CMS

新产品中心

安全与黑客研究

门户网运营

基础经济型应用网站

高级型企业型网站

高端集团品牌网站

网页的自动聚类方法总结