著录项信息
专利名称 | 使用可增量式更新的、经修改的朴素贝叶斯查询分类器的排序功能 |
申请号 | CN200780027961.X | 申请日期 | 2007-07-20 |
法律状态 | 撤回 | 申报国家 | 暂无 |
公开/公告日 | 2009-07-29 | 公开/公告号 | CN101496010 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 微软公司 | 申请人地址 | 美国华盛顿州
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 微软公司 | 当前权利人 | 微软公司 |
发明人 | W·D·拉姆塞 |
代理机构 | 上海专利商标事务所有限公司 | 代理人 | 顾嘉运 |
摘要
公开了使用可增量式更新的系统来对网络上的文档进行排序的各种方法。还公开了其上存储有用于执行使用可增量式更新的系统来对网络上的文档进行排序的方法的计算机可执行指令的计算机可读介质。此外,公开了包含至少一个应用模块的计算机系统,其中该至少一个应用模块包括用于执行使用可增量式更新的系统来对网络上的文档进行排序的方法的应用程序代码。
1.一种其上存储有用于响应于包括一个或多个搜索查询项的用户输 入的搜索查询来对网络上的文档进行排序的计算机可执行指令的计算机可读 介质,所述计算机可执行指令利用可通过更新计数值#(Asset)、#(wi,Asset)和 ∑#(wi,Asset)来更新的可增量式更新的查询分类器模型,其中#(Asset)表示所述 网络上的给定文档被任何用户选择来查看的次数,#(wi,Asset)表示所述网络上 的给定文档与所述搜索查询的搜索查询项wi被任何用户匹配的次数,而∑#(wi, Asset)表示所述网络上的给定文档与所述搜索查询的任何搜索查询项wi被任何 用户匹配的次数总和。
2.如权利要求1所述的计算机可读介质,其特征在于,所述网络上 的每一个文档都基于其对于所述搜索查询的相关性来进行排序,并且具有使用 公式(I)的文档相关性分数:
其中:
P(Asset|Query)表示在给定特定用户输入的搜索查询Query的情 况下返回给定文档Asset的概率;
NQ是所述搜索查询中的项数;
V是所述网络的词汇大小;以及
#(T)是已由任何用户处理的搜索查询的总数。
3.如权利要求1或2所述的计算机可读介质,其特征在于,所述可 增量式更新的查询分类器模型在每一个时间段结束时更新,所述时间段在长度 上等于或小于24小时。
4.如权利要求3所述的计算机可读介质,其特征在于,更新计数值 #(Asset)、#(wi,Asset)和∑#(wi,Asset)包括将在给定时间段期间收集到的任何新 数据添加到先前存储的计数值#(Asset)(old)、#(wi,Asset)(old)和∑#(wi, Asset)(old)。
5.如权利要求1到4中任一项所述的计算机可读介质,其特征在于, 所述可增量式更新的查询分类器模型还包括时间衰减组件,其中新近的搜索查 询和用户响应被给予比过去的搜索查询和用户响应更大的权重。
6.如权利要求1到5中任一项所述的计算机可读介质,其特征在于:
以及
其中:
λ是具有小于1.0的值的加权乘数;以及
t是表示计数值分量的年龄的整数。
7.如权利要求6所述的计算机可读介质,其特征在于,更新计数值 #(Asset)、#(wi,Asset)和∑#(wi,Asset)包括按照以下公式重新计算#(Asset)、#(wi, Asset)和∑#(wi,Asset):
#(Asset)(new)=#(Asset)(0)+λ[#(Asset)(old)];
#(wi,Asset)(new)=#(wi,Asset)(0)+λ#(wi,Asset)(old)];以及
∑#(wi,Asset)(new)=∑#(wi,Asset)(0)+λ[∑#(wi,Asset)(old)];
其中:
#(Asset)(new),#(wi,Asset)(new)和∑#(wi,Asset)(new)各自分别独立 地表示对应于计数值#(Asset),#(wi,Asset)和∑#(wi,Asset)的增量式更新的值;
#(Asset)(0)、#(wi,Asset)(0)和∑#(wi,Asset)(0)各自分别独立地表示 在上一个时间段内的出现次数;以及
#(Asset)(old)、#(wi,Asset)(old)和∑#(wi,Asset)(old)各自分别独立地 表示在所述上一个时间段之前的累积计数值。
8.如权利要求1到7中任一项所述的计算机可读介质,其特征在于, 还包括计算机可执行指令,所述计算机可执行指令用于接受由用户输入的搜索 询问,对所述网络上的文档进行搜索以生成包括多个文档的搜索结果,使用所 述可增量式更新的查询分类器模型来对所述搜索结果的多个文档进行排序以 生成经排序的搜索结果,以及向所述用户显示所述经排序的搜索结果。
9.一种包含至少一个应用模块的计算系统,所述至少一个应用模块 可以在所述计算系统上使用,其中所述至少一个应用模块包括加载在其上的来 自如权利要求1到8中任一项所述的计算机可读介质的应用程序代码。
10.一种增量式更新适于用作搜索引擎中的排序功能组件的查询分类 器模型的方法,所述方法包括:
确定计数值#(Asset)、#(wi,Asset)和∑#(wi,Asset),其中#(Asset)表 示网络上的给定文档被任何用户选择来查看的次数,#(wi,Asset)表示所述网络 上的给定文档与搜索查询的搜索查询项wi被任何用户匹配的次数,而∑#(wi, Asset)表示所述网络上的给定文档与所述搜索查询的任何搜索查询项wi被任何 用户匹配的次数总和;
存储所述计数值#(Asset)、#(wi,Asset)和∑#(wi,Asset);以及
通过将在一时间段期间收集到的任何新数据添加到先前存储的计 数值#(Asset)、#(wi,Asset)和∑#(wi,Asset)来更新所存储的计数值。
11.如权利要求10所述的方法,其特征在于,所述时间段在长度上等 于或小于24小时。
12.如权利要求10所述的方法,其特征在于,更新所存储的计数值 #(Asset)、#(wi,Asset)和∑#(wi,Asset)包括按照以下公式重新计算#(Asset)、#(wi, Asset)和∑#(wi,Asset):
#(Asset)(new)=#(Asset)(0)+λ[#(Asset)(old)];
#(wi,Asset)(new)=#(wi,Asset)(0)+λ#(wi,Asset)(old)];以及
∑#(wi,Asset)(new)=∑#(wi,Asset)(0)+λ[∑#(wi,Asset)(old)];
其中:
#(Asset)(new),#(wi,Asset)(new)和∑#(wi,Asset)(new)分别表示对 应于计数值#(Asset),#(wi,Asset)和∑#(wi,Asset)的增量式更新的值;
#(Asset)(0)、#(wi,Asset)(0)和∑#(wi,Asset)(0)分别表示在上一个时 间段内的出现次数;
#(Asset)(old)、#(wi,Asset)(old)和∑#(wi,Asset)(old)分别表示在所述 上一个时间段之前的累积计数值;以及
λ是加权乘数。
13.如权利要求12所述的方法,其特征在于,λ具有小于1.0的值。
14.一种确定网络上的文档相对于用户输入的搜索查询的文档相关性 分数的方法,所述方法包括如权利要求10到13中任一项所述的方法。
15.如权利要求14所述的方法,其特征在于,所述文档相关性分数使 用以下公式(I)来确定:
其中:
P(Asset|Query)表示在给定特定用户输入的搜索查询Query的情 况下返回给定文档Asset的概率;
NQ是所述搜索查询中的项数;
V是所述网络的词汇大小;以及
#(T)是已由任何用户处理的搜索查询的总数。
16.一种对搜索查询的搜索结果进行排序的方法,所述方法包括以下 步骤:
使用如权利要求14或15所述的方法来确定对于网络的每一个文 档的文档相关性分数;以及
基于每一个文档的文档相关性分数按降序来对所述文档进行排 序。
17.一种包含至少一个应用模块的计算系统,所述至少一个应用模块 可以在所述计算系统上使用,其中所述至少一个应用模块包括用于执行如权利 要求10到16中任一项所述的方法的应用程序代码。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2014-07-09 | 2014-07-09 | | |