著录项信息
专利名称 | 在排序搜索结果时引入锚文本用的系统和方法 |
申请号 | CN200510088213.5 | 申请日期 | 2005-07-25 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2006-04-05 | 公开/公告号 | CN1755678 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 微软公司 | 申请人地址 | 美国华盛顿州
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 微软公司 | 当前权利人 | 微软公司 |
发明人 | D·梅耶宗;H·扎拉古扎;M·J·泰勒;S·E·罗波特森 |
代理机构 | 上海专利商标事务所有限公司 | 代理人 | 陈斌 |
摘要
根据一个将锚文本作为一搜索项引入的评分函数,对网络上的一个搜索查询的搜索结果进行排序。该评分函数被调整,以使在目标文档的排序中,锚文本的目标文档将反映锚文本中的搜索项的使用。最初,在网络的爬行过程中,与锚文本相关联的属性被收集起来。生成一个单独的索引,该索引包括一个文档反向列表和锚文本中的搜索词。该索引随后响应于一个查询而被参考以便计算文档的得分。这个得分随后被用来排序文档并产生查询结果。
1.一种用于对搜索结果排序的计算机实现的方法,它包括:
提供到多个文档的索引,包括:
主索引,所述主索引包括对应于关键词以及对应于文档的爬行而被返回的其他索引键的记录;
锚文本索引,所述锚文本索引包括对应于包含在所述多个文档中的锚文本的目标文档的记录;
接收包含关键词和/或范围键的查询;
通过使用索引的记录来得到查询结果;
应用引入锚文本分量的评分函数,为所述查询结果中包括的一个或多个文档中的每个文档产生得分;
根据为查询结果中包括的每个文档生成的得分来排列所述查询结果;以及生成经排列的查询结果的输出以显示给用户,
其中,当被评分的文档与锚文本数据无关时,所述评分函数包括:
其中,
wtf是对给定查询词包括在所述文档中的频率进行加权的加权词频率;
k1是常数;
b是常数;
wdl是对评分的文档的长度进行加权的加权文档长度;
avwdl是对所有评分的文档的平均加权文档长度;
N是网络上文档的数量;而
n是至少出现一次给定查询词的文档的数目。
2.如权利要求1所述的计算机实现的方法,其特征在于,进一步包括:在提供到多个文档的索引之前,生成锚文本表,其中,对于文档中的锚文本,锚文本表包括一条该锚文本的记录,所述锚文本的记录包括下述一个或多个项:
指示包括锚文本记录的文档的源标识符;
指示所述锚文本记录引用的目标文档的目标标识符;锚文本;以及
链接。
3.一种用于对搜索结果排序的计算机实现的方法,它包括:
提供到多个文档的索引,包括:
主索引,所述主索引包括对应于关键词以及对应于文档的爬行而被返回的其他索引键的记录;
锚文本索引,所述锚文本索引包括对应于包含在所述多个文档中的锚文本的目标文档的记录;
接收包含关键词和/或范围键的查询;
通过使用索引的记录来得到查询结果;
应用引入锚文本分量的评分函数,为所述查询结果中包括的一个或多个文档中的每个文档产生得分;
根据为查询结果中包括的每个文档生成的得分来排列所述查询结果;以及生成经排列的查询结果的输出以显示给用户,
其中,所述评分函数包括:
其中,
wtf是加权词频率或者是某给定词的词频率之和乘以所有属性上的权重;
wtfAnchor是对应于在锚文本中的词频率的附加加权词频率;
k1是常数;
b是常数;
wdl是对评分的文档的长度进行加权的加权文档长度;
avwdl是对所有评分的文档的平均加权文档长度;
N是网络上文档的数量;而
n是至少出现一次给定查询词的文档的数目。
4.一种用于对搜索结果排序的计算机实现的方法,它包括:
提供到多个文档的索引,包括:
主索引,所述主索引包括对应于关键词以及对应于文档的爬行而被返回的其他索引键的记录;
锚文本索引,所述锚文本索引包括对应于包含在所述多个文档中的锚文本的目标文档的记录;
接收包含关键词和/或范围键的查询;
通过使用索引的记录来得到查询结果;
应用引入锚文本分量的评分函数,为所述查询结果中包括的一个或多个文档中的每个文档产生得分;
根据为查询结果中包括的每个文档生成的得分来排列所述查询结果;以及生成经排列的查询结果的输出以显示给用户,
其中,所述评分函数包括:
其中,
wtf是加权词频率或者是某给定词的词频率之和乘以所有属性上的权重;
wtfAnchor是对应于在锚文本中的词频率的附加加权词频率;
k1是常数;
wdl是对评分的文档的长度进行加权的加权文档长度;
avwdl是对所有评分的文档的平均加权文档长度;
B是定义为 的文档长度归一化分量,其中b是常数;
BAnchor是锚文本长度归一化分量,它通过从锚文本字段中取wdlAnchor和avwdlAnchor而与B不同;
N是网络上文档的数量;而
n是至少出现一次给定查询词的文档的数目。
5.如权利要求4所述的计算机实现的方法,其特征在于,其特征在于,所述由BAnchor提供的长度归一化的强度通过选择一个与BAnchor相关联的不同的常数值来调整。
6.一种用于对搜索结果排序的计算机实现的系统,包括:
用于提供到多个文档的索引的装置,所述索引包括:
主索引,所述主索引包括对应于关键词以及对应于文档的爬行而被返回的其他索引键的记录;
锚文本索引,所述锚文本索引包括对应于包含在所述多个文档中的锚文本的目标文档的记录;
用于接收包含关键词和/或范围键的查询的装置;
用于通过使用索引的记录来得到查询结果的装置;
应用引入锚文本分量的评分函数,为所述查询结果中包括的一个或多个文档中的每个文档产生得分的装置;
根据为查询结果中包括的每个文档生成的得分来排列所述查询结果的装置;以及用于生成经排列的查询结果的输出以显示给用户的装置,
其中,所述评分函数包括:
其中,
wtf是加权词频率或者是某给定词的词频率之和乘以所有属性上的权重;
wtfAnchor是对应于在锚文本中的词频率的附加加权词频率;
k1是常数;
wdl是对评分的文档的长度进行加权的加权文档长度;
avwdl是对所有评分的文档的平均加权文档长度;
B是定义为 的文档长度归一化分量,其中b是常数;
BAnchor是锚文本长度归一化分量,它通过从锚文本字段中取wdlAnchor和avwlAnchor而与B不同;
N是网络上文档的数量;而
n是至少出现一次给定查询词的文档的数目。
在排序搜索结果时引入锚文本用的系统和方法\n[0001] 相关申请交叉参照\n[0002] 本发明与序列号为10/804,326、发明名称为“文本文档搜索中的域加权(FieldWeighting in Text Document Searching)”、于2004年3月18日提交的专利申请有关。相关申请被转让给本专利申请的受让人,通过参考包括在此。\n背景技术\n[0003] 在文本文档搜索中,用户一般在搜索引擎中输入查询。搜索引擎对照一个编有索引的文档的数据库评价此查询,并返回最满足该查询的文档的有序列表。一个得分由搜索引擎按照运算法则生成,它是表示文档有多么满足查询的测度。常用的评分算法依赖于将查询分裂成搜索词、并使用关于被搜索的文本文档正文中个搜索词出现次数的统计信息。\n根据它们所对应的得分,文档按照等级顺序被排序,这样用户能够在搜索结果列表的最前面看到最匹配的搜索结果。\n[0004] 许多这样的评分算法假设每个文档都是一个单一的、无差别的文本串。搜索词的查询被应用于文本串(或者更精确地说,被应用于产生自表示每个文档的无差别文本串的统计中)。然而,文档通常具有一些内部结构(例如包含标题的域、段标题、元数据域等),所以将这些文档简化为无差别文本串丧失了所有由这样的结构信息提供的搜索好处。\n[0005] 一些现有的方法尝试通过为各个文档域创建统计表和为各个域产生得分的方法,将文档的内部结构纳入搜索之中。单个文档的得分随后被作为该文档的域得分的加权和来计算。一些现有的方法尝试包含文档的内部结构,但并不曾尝试把包含在其他文档中的有关该文档的文本考虑在内。\n发明内容\n[0006] 本发明涉及使用引入了锚文本分量的评分函数来排序搜索结果的系统和方法。锚文本由一个指向另一个文档的URL(统一资源定位符)和一个伴随的原文描述组成。该文本直接与目标文档相关,并且被用于本发明中以提供一个目标文档的相关性的测度。例如,文档A含有一些指向文档B的锚文本。如果该锚文本中包含一个文档B中没有的单词,在没有本发明所提供的附加功能性的情况下,包含这个单词的查询将不返回此被链接的文档。只有文档A被返回,但文档B不被返回。由于文档A中的描述是用来说明被链接文档B的,该文本非常可能是该被链接文档的概要/描述。通过在目标文档的排序中引入锚文本,本发明纠正了这个不足。\n[0007] 在本发明的一个方面中,网络首先“被爬行”以创建一个与网络链接和页面相关联的属性表。“爬行”是指自动地将几个文档(或任何类似的离散信息单元)收集到一个被称为索引的数据库中。通过追踪某些文档中的文档参考链接并且随即处理每一个被发现的文档的方法,爬行遍历了网络上的多个文档。通过辨识文档中的关键词和普通文本的方法来处理文档以创建索引。本发明的索引包括一个独立的锚文本索引分区。本发明编了索引的文本并不只限于伴随着URL的锚文本。锚文本也能够包括参照任何其他对象的文本。例如人、种类、目录等也可以被索引。\n[0008] 在本发明的另一个方面中,一旦锚文本被编入索引且与适当的目标文档相关联,该锚文本还被用于推进文档排序。在内容和锚文本中都存在的词的词频率被相加,这样一个词在文档中的总的出现次数增加了。目标文档的长度也因来自于指向特定目标文档的源文档的锚文本而加长了。这两个都是被用于确定文档的相关性测度的评分函数的因子。\n[0009] 根据本发明一方面,提供了一种用于对搜索结果排序的计算机实现的方法,它包括:提供到多个文档的索引,所述索引包括:主索引,所述主索引包括对应于关键词以及对应于文档的爬行而被返回的其他索引键的记录;锚文本索引,所述锚文本索引包括对应于包含在所述多个文档中的锚文本的目标文档的记录;接收包含关键词和/或范围键的查询;通过使用索引的记录来得到查询结果;应用引入锚文本分量的评分函数,为所述查询结果中包括的一个或多个文档中的每个文档产生得分;根据为查询结果中包括的每个文档生成的得分来排列所述查询结果;以及生成经排列的查询结果的输出以显示给用户,当所述文档与锚文本数据无关时,所述评分函数包括:\n其中,wtf是对给定查询词包括在所述文档\n中的频率进行加权的加权词频率;k1是常数;b是常数;wdl是对评分的文档的长度进行加权的加权文档长度;avwdl是对所有评分的文档的平均加权文档长度;N是网络上文档的数量;而n是至少出现一次给定查询词的文档的数目。\n[0010] 该方法进一步包括:在提供到多个文档的索引之前,生成锚文本表,其中,对于文档中的锚文本,锚文本表包括一条该锚文本的记录,所述锚文本的记录包括下述一个或多个项:指示包括锚文本记录的文档的源标识符;指示所述锚文本记录引用的目标文档的目标标识符;锚文本;以及链接。\n[0011] 根据本发明一方面,提供了一种用于对搜索结果排序的计算机实现的方法,它包括:提供到多个文档的索引,所述索引包括:主索引,所述主索引包括对应于关键词以及对应于文档的爬行而被返回的其他索引键的记录;锚文本索引,所述锚文本索引包括对应于包含在所述多个文档中的锚文本的目标文档的记录;接收包含关键词和/或范围键的查询;通过使用索引的记录来得到查询结果;应用引入锚文本分量的评分函数,为所述查询结果中包括的一个或多个文档中的每个文档产生得分;根据为查询结果中包括的每个文档生成的得分来排列所述查询结果;以及生成经排列的查询结果的输出以显示给用户,所述评分函数包括: 其中,wtf是加权词频率\n或者是某给定词的词频率之和乘以所有属性上的权重;wtfAnchor是对应于在锚文本中的词频率的附加加权词频率;k1是常数;b是常数;wdl是对评分的文档的长度进行加权的加权文档长度;avwdl是对所有评分的文档的平均加权文档长度;N是网络上文档的数量;而n是至少出现一次给定查询词的文档的数目。\n[0012] 根据本发明一方面,提供了一种用于对搜索结果排序的计算机实现的方法,它包括:提供到多个文档的索引,所述索引包括:主索引,所述主索引包括对应于关键词以及对应于文档的爬行而被返回的其他索引键的记录;锚文本索引,所述锚文本索引包括对应于包含在所述多个文档中的锚文本的目标文档的记录;接收包含关键词和/或范围键的查询;通过使用索引的记录来得到查询结果;应用引入锚文本分量的评分函数,为所述查询结果中包括的一个或多个文档中的每个文档产生得分;根据为查询结果中包括的每个文档生成的得分来排列所述查询结果;以及生成经排列的查询结果的输出以显示给用户,所述评分函数包括: 其中,wtf是加权词频率或者是某\n给定词的词频率之和乘以所有属性上的权重;wtfAnchor是对应于在锚文本中的词频率的附加加权词频率;k1是常数;wdl是对评分的文档的长度进行加权的加权文档长度;avwdl是对所有评分的文档的平均加权文档长度;B是定义为 的文档长度归一\n化分量,其中b是常数;BAnchor是锚文本归一化分量,它通过从锚文本字段中取wdlAnchor和avwdlAnchor而与B不同;N是网络上文档的数量;而n是至少出现一次给定查询词的文档的数目。\n[0013] 所述由BAnchor提供的长度归一化的强度通过选择一个与BAnchor相关联的不同的常数值来调整。\n[0014] 根据本发明另一方面,提供了一种用于对搜索结果排序的计算机实现的系统,包括:用于提供到多个文档的索引的装置,所述索引包括:主索引,所述主索引包括对应于关键词以及对应于文档的爬行而被返回的其他索引键的记录;锚文本索引,所述锚文本索引包括对应于包含在所述多个文档中的锚文本的目标文档的记录;用于接收包含关键词和/或范围键的查询的装置;用于通过使用索引的记录来得到查询结果的装置;应用引入锚文本分量的评分函数,为所述查询结果中包括的一个或多个文档中的每个文档产生得分的装置;根据为查询结果中包括的每个文档生成的得分来排列所述查询结果的装置;以及用于生成经排列的查询结果的输出以显示给用户的装置,所述评分函数包括:\n其中,wtf是加权词频率或者是某给定词的词频\n率之和乘以所有属性上的权重;wtfAnchor是对应于在锚文本中的词频率的附加加权词频率;\nk1是常数;wdl是对评分的文档的长度进行加权的加权文档长度;avwdl是对所有评分的文档的平均加权文档长度;B是定义为 的文档长度归一化分量,其中b是\n常数;BAnchor是锚文本归一化分量,它通过从锚文本字段中取wdlAnchor和avwlAnchor而与B不同;N是网络上文档的数量;而n是至少出现一次给定查询词的文档的数目。\n附图说明\n[0015] 图1说明了一种可用在本发明的一个实施例中的示例性计算设备。\n[0016] 图2是根据本发明使用索引键进行范围搜索的一个示例性系统的功能框图。\n[0017] 图3是根据本发明的一个示例性索引结构的功能框图。\n[0018] 图4是根据本发明的一个示例性网络图。\n[0019] 图5是根据本发明用于处理锚文本以将锚文本包含在文档排序中的一个示例性进程的逻辑流程图。\n[0020] 图6是根据本发明用于将锚文本引入对搜索结果的排序的一个示例性进程的逻辑流程图。\n具体实施方式\n[0021] 下面结合附图对本发明作更充分的描述,附图形成说明的一部分并且以图示的方式显示了用于实践本发明的具体示例性实施例。然而,本发明可能以许多不同的形式实施,因此不应解释为局限于这里所陈述的具体实施方案;相反,提供这些实施方案是为了使本公开详尽又完整、并且向本技术领域技术人员完全传递本发明的范围。其中,本发明可体现为方法或装置。因此,本发明可采用完全硬件的实施方式、完全软件的实施方式或软件和硬件相结合的实施方式。因此,以下的详细说明不应从限制意义上来理解。\n[0022] 说明性操作环境\n[0023] 参照图1,用于实现本发明的一个示例性系统包括一个计算设备,诸如计算设备\n100。计算设备100可配置成客户机、服务器、可移动设备或其他计算设备。在一个非常基本的配置中,计算设备100一般包括至少一个处理单元102和系统存储器104。取决于计算设备的精确配置和类型,系统存储器104可以是易失性的(如RAM)、非易失性的(如ROM、闪存等)或是两者的某种组合。系统存储器104通常包括一个操作系统105、一个或多个应用程序106,且可包括程序数据107。在一个实施方案中,应用程序106包含一个用于实现本发明功能性的搜索排序应用程序120。这一基本配置在图1中由虚线108中的那些组件表示。\n[0024] 计算设备100可具有附加的特征或功能性。例如,计算设备100也可包括附加数据存储设备(可移动的和/或不可移动的),诸如磁盘、光盘或磁带。这种附加存储器在图\n1中由可移动存储器109和不可移动存储器110表示。计算机存储介质可包括易失性的和非易失性的、可移动的和不可移动的介质,这些存储介质以用于信息存储的任何方法或技术实现,所述信息包括计算机可读指令、数据结构、程序模块或其它数据。系统存储器104、可移动存储器109和不可移动存储器110都是计算机存储介质的例子。计算机存储介质包括但不限于RAM、ROM、EPROM、闪存或其它存储器技术,CD_ROM、数字通用盘(DVD)或其它光存储器,磁盒、磁带、磁盘存储或其它磁存储设备,或任何其他能够用于存储期望信息和能够被计算设备100访问的介质。任何此类的计算机存储介质都可以是设备100的一部分。\n计算设备100也可以有输入设备112,诸如键盘、鼠标、笔、语音输入设备、触摸输入设备等。\n输出设备114如显示器、扬声器、打印机等也可被包含在其中。\n[0025] 计算设备100还包含使该设备可同其他计算设备118通信的通信连接116,比如通过网络进行通讯。通信连接116是通信介质的实例之一。通信介质通常可以由计算机可读指令、数据结构、程序模块或其他数据以诸如载波或其他传输机制的调制数据信号的形式来体现,且包含一切信息传递介质。术语“调制数据信号”是指具它的一个或多个特征以在信号中将信息进行编码的方式加以改变或设定的信号。作为例子,而非限制,通信介质包括有线介质,如有线网络和直接连接,和无线介质如声波、射频、红外或其他无线介质。这里使用的术语“计算机可读介质”既包括存储介质又包括通信介质。\n[0026] 将锚文本引入搜索排序中的说明性实施方案\n[0027] 本发明的具体实施方案涉及搜索引擎的排序函数。搜索引擎的质量通常由根据排序函数所分配的等级得到的文档相关性来确定。锚文本定义为在HTML(
Example Web)锚标签中的文本。通常,锚文本包含简短而高质量的目标URL(统一资源定位符)的描述,而且排序函数将指向给定文档的锚标签的内容引入到该文档的排序函数中去是有益的。\n[0028] 图2所示是用于根据本发明使用索引键进行范围搜索的一个示例性系统的功能框图。系统200包括索引210、管道(pipeline)220、文档接口230、客户接口240、锚文本插件250、索引插件260和锚文本表270。\n[0029] 索引210的结构包括独立的索引分区,这些独立的索引分区包括一个主分区和另一个针对锚文本的分区。索引210结构的更详细的描述在下文图3的讨论中提供。这些索引的记录被用来为客户查询提供结果。在一个实施方案中,索引210对应于多个为索引记录共同提供存储的数据库。\n[0030] 管道220是一个用于为索引而获取文档或文档记录的收集机制的说明性表示。在把对应于有关数据的记录输入到索引210中之前,管道220允许使用各种插件(如锚文本插件250)进行数据过滤。\n[0031] 文档接口230提供协议、网络接入点和数据库访问点,用于跨越多个数据库和网络站点检索文档。例如,文档接口230可提供对因特网的访问,同时也提供对本地服务器的数据库的访问和对当前计算设备上的数据库的访问。其他实施方案可使用不同的协议访问其他文档站点而不背离本发明的本质和范围。\n[0032] 客户接口240由提供客户的访问来形成并发起一次搜索。该搜索可根据关键词和/或范围键来定义。一个用于处理搜索查询的示例性方法在下文图7的讨论中做更详细的描述。\n[0033] 锚文本插件250是若干收集器管道插件中的一个。锚文本插件250辨识锚文本及其包含在文档中的相关属性。当由文档接口230提供的文档被爬行时,锚属性由锚文本插档250收集。在一个实施方案中,锚文本插件250的功能性实际上被包括在一个属性插件中而不是作为一个独立的插件提供。该属性插件辨识文档所有的域及包括锚属性在内的这些域的相关联属性。在一个实施方案中,由于锚文本和目标文档相关联,因此将目标文档和锚文本相关联的动作被推迟直到此次爬行完成为止。例如,当文档A被索引并且文档A具有指向文档B的锚文本时,该锚文本被应用于文档B。但是由于文档A此刻正在被索引,该过程被推迟。同样,可能有多个锚要被应用于文档B、要求先发现它们才能对文档B进行正确的索引。把对目标文档的索引一直延迟到爬行完成为止能更好地确保索引结果的正确性。\n[0034] 索引插件260是另一个连接到管道220的插件。索引插件提供用于生成、划分和更新索引210的机制。在一个实施方案中,索引插件260先提供临时缓存关键词和生成自被爬行文档的锚文本键的词列表,然后再冲洗转存这些结果到索引210。用包含在词列表中的爬行结果填充索引210的记录。\n[0035] 锚文本表270包含由锚文本插件250收集的锚属性。对于文档中的锚文本,锚文本表270包括一条该锚文本的记录,该锚文本记录包括与锚文本相关联的属性。例如,锚文本表270中的一条记录可在独立的字段中包括一个辨识该链接的目标文档的目标ID、一个辨识当前文档的源ID、锚文本本身和该链接。在其它实施方案中,在锚文本表270中可包括与两个文档之间的链接有关的其他字段。在一个实施方案中,从爬行收集的锚和链接属性被用来生成网络的表示,其中节点对应于文档,分支对应于链接(见图4)。该网络图可随即被加载到内存中并被用来为被锚文本所涉及的目标文档解析目标ID。\n[0036] 尽管如图所示系统200中功能块之间有的是单向通信有的是双向通信,但是这些通信类型中的任何一种都可变为另一种通信类型而不会背离本发明的性质和范围(例如,所有的通信都可以有一个应答消息要求双向的而不是单向的通信)。\n[0037] 图3所示是根据本发明的一个示例性索引结构的功能框图。索引300包栝主索引\n300和锚文本索引320。\n[0038] 主索引310包括对应于关键词以及对应于文档的爬行而被返回的其他索引键的记录。主索引310也包括涉及文档其他属性的其他索引分区。对应于锚文本的记录被转移(diverted)并输入到锚文本索引320中\n[0039] 锚文本索引320包含对应于包含在网络上的文档中的锚文本的目标文档的记录。\n这些目标文档被组织成一个反向索引,其中目标文档ID按与包含在与目标文档相关联的锚文本或者URL中的字词的关联列出。在爬行完成后,锚文本索引320生成自锚文本表。为了评价词的每个目标文档并且在锚文本索引320中输入目标文档,对应于每个目标文档的锚文本被链接在一起。包含一个针对锚文本的单独的索引分区使在将锚文本作为一个因子引入文档的评分函数之前可基于锚文本进行相关性计算。在下文图6的讨论中更完整地描述了将锚文本引入评分函数以便将文档排序。\n[0040] 图4所示是根据本发明的一个示例性的网络图。网络图由节点(如410)和边即链接(如420)组成。节点(如410)表示页面和网络上的可以作为搜索查询的结果而被返回的其他资源。通过使用列在这些页面上的导航链接,各链接(如420)将这些页面中的每一个连接起来。可以为每一页面搜集一组能被用来确定与一个特定页面的锚文本相关的属性的链接信息。\n[0041] 在一个实施方案中,节点430是包含一个对应于节点440的目标文档的锚标签的当前文档。例如,该锚标签可对应于HTML(SampleWeb)的锚标签。当前文档的ID也是已知的,通常被包含在该文档的HTML中。为了填充锚文本表(见图2),还需要解析这个与锚文本相关联的目标文档ID。网络图400通过提供一个可以走查(walk)来解析未知属性的网络表示而有助于解析目标文档ID。\n[0042] 图5所示是根据本发明的一个用于处理锚文本以将锚文本包含在文档排序之中的示例性进程的逻辑流程图。进程500在块502处开始,其中提供对文档主体的访问。处理在块504继续。\n[0043] 在块504处,文档的主体被爬行以确定存在的文档及与这些文档相关联的属性(如文件类型)。每个文档的标识符或ID以及它们相关联的属性随后作为爬行的结果被送出。处理在块506继续。\n[0044] 在块506处,与涉及锚文本的文档相关的属性由锚文本插件获取。锚文本属性可包括一个源文档的标识符、和目标文档标识符、锚文本本身及该链接的URL。一旦这些锚属性被收集以后,处理就移到块508。\n[0045] 在块508处,生成锚文本表。锚文本表包括与锚文本的每个实例相关联的锚文本属性。锚文本每个实例的属性作为记录存储在该表中。一旦该表被创建,处理就在块510继续。\n[0046] 在块510处,生成一个包括主索引和锚文本索引的索引。在一个实施方案中,在建立锚文本表以后,生成该索引。锚文本表包括一个与锚文本键相关联的文档的反向列表。锚文本键对应于锚文本,因为它们是被包含在锚文本中或锚标签的目标文档的URL中的关键词。因此,反向列表的文档是锚文本键的目标文档。一旦该索引被实例化,处理就在块512继续。\n[0047] 在块512处,主索引和锚文本索引与锚文本表一起被参考以将基于锚文本的相关性值引入评分函数中。评分函数确定一个文档的相对得分。诸文档于是可根据它们的得分被排序。关于将锚文本引入对文档的排序之中的更详细的描述在下文图6的讨论中给出。\n一旦锚文本被引入排序,处理前进到块514,此处进程500结束。\n[0048] 在进程500完成后,通过各种与搜索引擎传输和显示结果相关联的操作,排序后的文档可被返回给用户。对应于较高精度结果的文档可随后由用户随意地选择察看。\n[0049] 图6所示是根据本发明的一个用于将锚文本引入对搜索结果的排序之中的示例性进程的逻辑流程框图。当图5的进程500进入块512且一个查询已由客户作出时,进程\n600在块602处开始。处理在判定块604继续。\n[0050] 在判定块604处,要确定针对正被查询的词而言,正在为其计算当前得分的文档是否包含在锚文本索引中。如果该文档并未列于锚文本索引中,处理程移到块608。然而,如果该文档列于锚文本索引中,则处理在块606继续。\n[0051] 在块606处,一个用于确定文档的相关性得分的评分函数被调整以引入对锚文本的考量和加权。在一个实施方案中,评分函数对应于字段加权的评分函数,这种字段加权的评分函数在2004年3月18日提交的序列号为10/804,326、发明名称为“Field weighting in Text Document Searching(文本文档搜索中的字段加权)”的专利申请中有描述,通过引用包括在此。如10/804,326号专利申请所提供的,下面是一个字段加权评分函数的表达式:\n[0052] \n[0053] 其中,各项定义如下:wtf是加权词频率或者是某给定词的词频率之和乘以所有属性上的权重;wdl是加权文档的长度;avwdl是平均加权文档长度;N是网络上文档的数量;n是包含给定查询项的文档的数目,是对所有检索项取的和;k1和b是常数。这些项和以上的等式被详细描述于10/804,326号专利申请中。\n[0054] 作为基本的解释,加权词频率(wtf)对应于在文档中的不同字段上加权之后的词频率。加权文档长度除以平均加权文档长度提供了一个当前文档的长度有多接近于平均文档长度的测度,是评分函数中的归一化项。网络中文档数(N)除以包含给定查询项的文档的数目(n)的对数提供了一个文档频率的测度。这些量可从内容索引中发现和检索到。\n[0055] 在一个实施方案中,通过把一个对应于在锚文本中的词频率的附加加权词频率(wtfAnchor)包含进来的方法,评分函数被调整以引入锚文本,从而使新的评分函数变为:\n[0056] \n[0057] 相应地,用锚文本中的词频率更新了评分函数的词频率分量。然而,评分函数的其他项不受影响。只要分别地参考主索引和锚文本索引,查询就能够获取评分函数(2)的词频率。\n[0058] 在另一个实施方案中,通过调整评分函数以在将加权词频率加到一起之前将长度归一化项应用于文档的每个字段的加权词频率中的方法,调整文档长度归一化项以说明(account for)锚文本。为了将锚文本引入文档长度归一化项中,一个新的项(B)被定义为:\n[0059] \n[0060] 于是可以根据这个新的项将等式(1)重组而产生下面的表达式:\n[0061] \n[0062] 与锚文本相关联的加权词频率(wtfAnchor)可以和一个新的BAnchor项一起被加到等式中去,其中BAnchor项对应于与锚文本相关联的长度归一化,由此等式(4)变为:\n[0063] \n[0064] 因此,在一个实施方案中,通过从锚文本字段中取BAnchor的wdlAnchor和avwdlAnchor分量,BAnchor与B不同。在另一个实施方案中,通过同样为锚文本字段选择一个不同的bAnchor的方法,调整长度归一化项的强度。一旦评分函数被调整以说明锚文本,处理就移到块608。\n[0065] 在块608处,用计算当前文档的得分用的变量将评分函数填充。如前所述,只要分别地参考主索引和锚文本索引,查询能够获取用于填充评分函数的词频率。\n[0066] 在块610处,评分函数被执行,文档的相关性得分即计算出来。一旦相关性得分计算出来,就被存入存储器中并与该特定文档相关联。处理于是移到块612。\n[0067] 在块612处,确定是否所有文档的相关性得分都已根据评分函数(2)计算出来了。\n得分可以如所示的那样串行计算也可以并行计算。如果不是所有的得分都被计算了,那么进程返回块604启动对下一个文档得分的计算。然而,如果所有的得分都被计算过了,处理就在块614继续。\n[0068] 在块614处,查询的搜索结果根据其相关得分进行排序。得分现在考虑了每个文档的锚文本。因此,文档的排序已经被改进,所以在锚文本中引用的文档反映出该引用。一旦搜索结果被排序以后,处理就进行到块614,此处进程600返回到图5中的进程500的块\n514。\n[0069] 上面的说明书、举例和数据提供了一个完整的关于本发明各部分的加工和使用的描述。由于可以做出很多本发明的具体实施方案而不会背离本发明的本质和范围,所以本发明归于所附权利要求书。法律信息
- 2015-09-16
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 200510088213.5
申请日: 2005.07.25
授权公告日: 2010.08.25
- 2010-08-25
- 2007-12-05
- 2006-04-05
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| | 暂无 |
1997-02-05
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |