著录项信息
专利名称 | 基于链接分析的个性化搜索引擎方法 |
申请号 | CN200510050198.5 | 申请日期 | 2005-06-22 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2005-12-21 | 公开/公告号 | CN1710560 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 浙江大学 | 申请人地址 | 浙江省杭州市西湖区浙大路38号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 浙江大学 | 当前权利人 | 浙江大学 |
发明人 | 卜佳俊;陈纯;莫林剑;娄水勇 |
代理机构 | 杭州求是专利事务所有限公司 | 代理人 | 林怀禹 |
摘要
本发明公开了一种基于链接分析的个性化搜索引擎方法。是通过建立知识网络模型描述用户兴趣,建立多态链接网络记录网络节点之间链接的不同类别,进而在此基础上展开链接分析得到搜索结果。本发明是建立在包含信息更加丰富,且与原始链接网络保持兼容的多态链接网络基础上,加上个性化知识网络在描述用户兴趣的方面的可伸缩性,从而保证了更高的准确率和更广的适用性。
1.一种基于链接分析的个性化搜索引擎方法,其特征在于:
1)用户输入搜索词,在知识网络中找到对应的节点;其中知识网络是一个 定量表示概念之间关系的结构;
2)根据知识网络中的邻接关系,扩散步骤(1)中的知识网络节点得到一 个概念节点集合;
3)为概念节点集合中的每个节点在多态链接网络中计算排序值,计算排序 值的方法可采用目前很成熟的PageRank链接分析算法;其中多态链接网络在原 有网络链接结构之上添加了链接的类别信息;
4)最后根据知识网络中的权重,求前面得到的排序值的加权和,得到最终 的排序值。
2.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法,其特 征在于:步骤(1)中知识网络在概念层次关系的基础上,为这些层次关系添加 一个0~1之间的权值,来表示用户对这种关系的认可程度;在用户的使用过程 中,根据搜索结果中概念节点的出现的次数、用户的反馈信息来更新知识网络, 使得在用户与系统多次交互后,知识网络能够趋向于反映用户的偏好。
3.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法,其特 征在于:步骤(3)中多态链接网络是按照知识网络定义的概念节点,对链接进 行分类;这样除了在原来的A到B的链接表达的A和B有关系的基础上,还可 以进一步表达A和B因为知识网络中对应节点定义的原因而有关系;分类允许 重复,也允许某些链接没有被分到任何类;其中A、B代表多态链接网络中任意 两有链接的节点。
4.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法,其特 征在于:步骤(3)中多态链接网络的更新采用静态的分析方法:使用索引词- 权重策略为每个概念节点统计多态链接网络中每个节点的权重,取其中前N位 的作为该多态链接网络节点的关键词集合;然后观察关键字集合有重合的两个 节点,如果已经存在链接,那么给该链接添加关键词集合中的重合元素;否则 给两个节点添加一条新链接,同样给该新链接添加关键词集合中的重合元素; 其中N根据多态链接网络的规模来确定;
索引词-权重策略的计算公式如下:
概念节点Ki在文档Di中的权值为:KKi,Di=FKi,Di×(Log2N/(NK,D+1))
其中:FKi,Di为概念节点Ki在文档Di中的出现频率;N为文档集总数,其中 文档是多态网络中的节点;NK,D为文档集中至少出现一次概念节点Ki的文档数;
5.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法,其特 征在于:步骤(3)中多态链接网络的更新采用动态更新方法:跟踪用户的检 索习惯,一段时间内用户检索的行为通常只有一个主题,该主题从搜索词中提 取;通过分析用户在某个文档的停留时间,以及反馈信息来访问历史记录,得 到一个文档集合;给该文档集合中的文档相互之间添加一条类别为通过检索词 提取出来的若干个概念节点的链接。
6.根据权利要求1所述的一种基于链接分析的个性化搜索引擎方法,其特 征在于:步骤(3)中针对某个概念节点在多态链接网络上使用PageRank算法 时,将针对这一概念节点为每条链接评估一个权值,链接被分为三种:
1)与本次概念节点拥有相同类别的链接,权值为1;
2)没有任何类别信息的链接,权值为α;
3)有类别信息,但是与本次概念节点不符合的链接,权值为β;
一个文档A有文档T1、T2...Tn指向它,那么A的PageRank值计算方式如 下:
PR(A)=(1-d)+d(f(A,T1)*PR(T1)/C(T1)+...+f(A,Tn)*PR(Tn)/C(Tn))
其中:
d:一个0到1的系数;
C(A):A指向的文档数目;
f(A,Tx):A与Tx之间链接的权值,其中x=1,2,...,n。
技术领域\n本发明涉及搜索引擎,语义网络领域,特别是涉及一种基于链接分析的个 性化搜索引擎方法。\n背景技术\n近年来,搜索引擎因其能够在几乎无限的资源中为广大用户找到所需的信 息而越来越受到重视。优秀的搜索引擎也不断涌现,如:Google,ODP等,这 其中基于链接分析的第三代搜索引擎(如Google)则凭借其较高的搜索准确率 而成为当前搜索引擎的主流。\n然而当前搜索引擎仍然存在着查准率太低的问题,搜索结果充斥着太多的 无用信息,因此个性化搜索一经提出既成为当前国际上的一个研究热点。现有 的个性化搜索引擎的普遍做法是先将用户关心的问题分为若干个类别,然后根 据一些统计信息记录每个用户对每个类别的兴趣值,接着按照这些兴趣值对搜 索结果进行处理,使搜索结果偏向用户感兴趣的类别。这种方式还只是停留在 对兴趣分类的基础上,而没有对这些类别的关系进行描述。为了得到更好的效 果,有必要引入新的模型来描述这种关系。概念网络则在这里发挥作用,我们 以概念网络为基础构建知识网,更好的组织兴趣类别,同时作为描述用户兴趣 的模型。\n同时,现有方法还有一个共同的不足之处就是他们没有充分利用包含在链 接网络结构上的信息。现有链接分析技术的基础是“一致链接网络”,即网络 结构中所有链接都是一致的,如图2所示。\n发明内容\n本发明的目的在于提供一种基于链接分析的个性化搜索引擎方法。\n本发明解决其技术问题所采用的技术方案如下:\n1)用户输入搜索词,在知识网络中找到对应的节点;其中知识网络是一个 定量表示概念之间关系的结构;\n2)根据知识网络中的邻接关系,扩散步骤(1)中的知识网络节点得到一 个概念节点集合;\n3)为概念节点集合中的每个节点在多态链接网络中计算排序值,计算排序 值的方法可采用目前很成熟的PageRank链接分析算法;其中多态链接网络在原 有网络链接结构之上添加了链接的类别信息;\n4)最后根据知识网络中的权重,求前面得到的排序值的加权和,得到最终 的排序值。\n1.步骤(1)中知识网络在概念层次关系的基础上,为这些层次关系添加一 个0~1之间的权值,来表示用户对这种关系的认可程度;在用户的使用过程中, 根据搜索结果中概念节点的出现的次数、用户的反馈信息来更新知识网络,使 得在用户与系统多次交互后,知识网络能够趋向于反映用户的偏好。\n2.步骤(3)中多态链接网络是按照知识网络定义的概念节点,对链接进 行分类;这样除了在原来的A到B的链接表达的A和B有关系的基础上,还可 以进一步表达A和B因为知识网络中对应节点定义的原因而有关系;分类允许 重复,也允许某些链接没有被分到任何类;其中A、B代表多态链接网络中任意 两有链接的节点。\n3.步骤(3)中多态链接网络的更新采用静态的分析方法:使用索引词- 权重策略(TF-IDF)方法为每个概念节点统计多态链接网络中每个节点的权重, 取其中前N位的作为该多态链接网络节点的关键词集合;然后观察关键字集合 有重合的两个节点,如果已经存在链接,那么给该链接添加关键词集合中的重 合元素;否则给两个节点添加一条新链接,同样给该新链接添加关键词集合中 的重合元素;其中N根据多态链接网络的规模来确定;\nTF-IDF的计算公式如下:\n概念节点Ki在文档Di中的权值为:KKi,Di=FKi,Di×(Log2N/(NK,D+1)) 其中:FKi,Di为概念节点Ki在文档Di中的出现频率;N为文档集总数,其中文档 是多态网络中的节点;NK,D为文档集中至少出现一次概念节点Ki的文档数;\n步骤(3)中多态链接网络的更新采用动态更新方法:跟踪用户的检索习惯, 一段时间内用户检索的行为通常只有一个主题,该主题从搜索词中提取;通过 分析用户在某个文档的停留时间,以及反馈信息来访问历史记录,得到一个文 档集合;给该文档集合中的文档相互之间添加一条类别为通过检索词提取出来 的若干个概念节点的链接。\n4.步骤(3)中针对某个概念节点在多态链接网络上使用PageRank算法时, 将针对这一概念节点为每条链接评估一个权值,链接被分为三种:\n1)与本次概念节点拥有相同类别的链接,权值为1;\n2)没有任何类别信息的链接,权值为α;\n3)有类别信息,但是与本次概念节点不符合的链接,权值为β;\n一个文档A有文档T1、T2...Tn指向它,那么A的PageRank值计算方式如 下:\nPR(A)=(1-d)+d(f(A,T1)*PR(T1)/C(T1)+...+f(A,Tn)*PR(Tn)/C(Tn))\n其中:\nd:一个0到1的系数;\nC(A):A指向的文档数目;\nf(A,Tx):A与Tx之间链接的权值,其中x=1,2,...,n。\n本发明与背景技术相比,具有的有益的效果是:\n本发明是一种用于建立个性化搜索引擎的机制。它适用于搭建因特网或者 企业内部网络的搜索引擎。本发明的方法是通过建立知识网络模型描述用户兴 趣,建立多态链接网络记录网络节点之间链接的不同类别,修改PageRank算法 以适应多态链接网络,进而在此基础上展开链接分析得到搜索结果。本发明是 建立在包含信息更加丰富,且与原始链接网络保持兼容的多态链接网络基础上, 加上个性化知识网络在描述用户兴趣的方面的可伸缩性,从而保证了更高的准 确率和更广的适用性。\n附图说明\n图1为知识网络,概念提取自ODP搜索引擎;\n图2为原始的各链接一致的链接网络;\n图3为多态链接网络,其中不同线型表示三种不同类别的链接,黑色实线 表示该链接没有被分类,链接的类别是可以重复的。\n具体实施方式\n本发明实施的关键有三点:知识网络、多态链接网络的建立和维护,查询时 排序值的计算。其中知识网络、多态链接网络是本发明实施的基础。\n1.知识网络的建立和维护\n知识网络是在概念网络的基础上添加了权值,来定量的表示用户对概念之间 关系的一种结构,如图1。概念节点可以在Yahoo!、ODP等目前非常流行的目 录搜索引擎中提取。初始化时,将在ODP中有关系的两个节点之间的权值设置 为1,否则设置为0。\n知识网络的维护可以在用户的使用过程中,根据文中概念节点的出现的次 数、用户的反馈信息来更新知识网络。当用户和系统多次交互后,这个知识网 络就逼近于用户对概念的真实理解。\n2.多态链接网络的建立和维护\n链接关系也是可以分类的。因特网上的超链接类型很多,有一般的网页链 接、对图片的链接、email链接等等。类似的,把这些链接针对某个领域进行更 细的分类,就形成了“多态链接网络”,如图3。\n多态链接网络存在静态更新和动态更新两种方式。在多态链接网络建立时, 可以根据需要选择适量的静态更新;而在系统运行过程中,实施动态更新。需 要说明的是,即使在初始化时候完全不实施静态更新方式也可以运行,但是搜 索结果却不能反映个性化搜索结果。详细可参看下一点。\n3.排序值的计算\n在这里假设知识网络和多态链接网络都是相对固定的。\n排序算法步骤如下:根据用户输入的搜索词在知识网络中找到一个最符合的 节点;然后选取与该概念节点相邻的其他节点;针对每个选出的节点在多态网 络中为每条链接评估一个权值,再为每个文档根据修改过的PageRank算法求得 表示在该概念节点意义下的排序值;最后将所有排序值加权求和得到最终的排 序结果。其中,由于知识网络是个性化的,所以得到的节点以及最后的组合方 式都会不同,从而最终的排序值也会不同,再结合对文档和搜索词的相关性分 析,就会得到不同的搜索结果。\n把所有具有直接链接关系的节点(权值不为0)作为相关参考节点集合(下 面称为RelatedSet)。由于为链接新引入了权值,必须修改PageRank算法。\n在原来的PageRank算法中,一个文档A有文档T1、T2...Tn指向它。那么 A的PageRank值计算方式如下:\nPR(A)=(1-d)+d(PR(T1)/C(T1)+...+PR(Tn)/C(Tn)) (1.1)\n其中d是一个0到1的系数,而C(A)则是表示A指向的文档数目。\n在引入多态链接网络后,我们将其改变如下:\nPR(A)=(1-d)+d(f(A,T1)*PR(T1)/C(T1)+...+f(A,Tn)*PR(Tn)/C(Tn)) (1.2)\n其中:f(A,T)为A和T之间链接的权值,定义如下:\n\n根据试验结果,我们把α和β分别设置为0.15和0.01。\n某个文档在特定的搜索主题下排序值计算公式如下:\n\n其中\ndoc:需要排序的文档;\nquery:搜索词;\nWeight(topic,query):知识网络中定义的权值;\nPunishFactor(topic,query):当前检查的节点topic与query之间的关系。为了区别 搜索节点query和扩展后RelatedSet中的节点。显然扩展节点的贡献应该相对小, 所以将其定义为:PunishFactor(w,w0)=1/kDistance(w,w0),其中Distance(topic,word)是Topic和 word之间最小的边数,直接链接,则为1,k是控制收敛速度的参数,可以设置 为2;\nRank(doc,topic):公式1.1定义的doc在概念节点topic意义下的PageRank值。\n最终的排序结果还需要考察文档与搜索主题之间的关联程度,综合给出评 判,这已非本发明的内容,故不再详细叙述。
法律信息
- 2018-07-10
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 200510050198.5
申请日: 2005.06.22
授权公告日: 2007.09.19
- 2007-09-19
- 2006-02-15
- 2005-12-21
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2003-05-28
|
2000-10-27
| | |
2
| |
2001-05-23
|
1999-03-12
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |