HITS算法

HITS(Hyperlink-Induced Topic Search)算法是利用Hub/Authority方法的搜索方法,算法如下:将查询q提交给传统的基于关键字匹配的搜索引擎.搜索引擎返回很多网页,从中取前n个网页作为根集(root set),用S表示。S满足如下3个条件:
   1.S中网页数量相对较小
   2.S中网页大多数是与查询q相关的网页
   3.S中网页包含较多的权威网页。
   通过向S中加入被S引用的网页和引用S的网页将S扩展成一个更大的集合T.
   以T中的Hub网页为顶点集Vl,以权威网页为顶点集V2,Vl中的网页到V2中的网页的超链接为边集E,形成一个二分有向图SG=(V1,V2,E)。对V1中的任一个顶点v,用h(v)表示网页v的Hub值,对V2中的顶点u,用a(u)表示网页的Authority值。开始时h(v)=a(u)=1,对u执行I操作修改它的a(u),对v执行O操作修改它的h(v),然后规范化a(u),h(v),如此不断的重复计算下面的操作I,O,直到a(u),h(v)收敛。(证明此算法收敛可见
I 操作: (1) O操作: (2)
   每次迭代后需要对a(u),h(v)进行规范化处理:
   式(1)反映了若一个网页由很多好的Hub指向,则其权威值会相应增加(即权威值增加为所有指向它的网页的现有Hub值之和)。式(2)反映了若一个网页指向许多好的权威页,则Hub值也会相应增加(即Hub值增加为该网页链接的所有网页的权威值之和)。和PageRank算法一样,可以用矩阵形式来描述算法,这里省略不写。
   HITS算法输出一组具有较大Hub值的网页和具有较大权威值的网页。