一种用于海量文本快速相似搜索的方法

发明专利无效专利

申请号：
CN200510117001.5
IPC分类号：G06F17/30
申请日期：
2005-10-28
申请人：
北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种用于海量文本快速相似搜索的方法
申请号	CN200510117001.5	申请日期	2005-10-28
法律状态	驳回	申报国家	中国
公开/公告日	2006-06-21	公开/公告号	CN1790321
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学	申请人地址	北京市海淀区成府路298号方正大厦变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	北大方正集团有限公司,北京北大方正技术研究院有限公司,北京大学	当前权利人	北大方正集团有限公司,北京北大方正技术研究院有限公司,北京大学
发明人	杨建武;吴於茜;陈晓鸥
代理机构	北京英赛嘉华知识产权代理有限责任公司	代理人	田明;王达佐

摘要

本发明涉及一种用于海量文本快速相似搜索的方法，属于智能信息处理技术。当数据集的维数较高(超过20)或数据量很大(超过10万)时，现有技术方法的性能迅速降低，难以满足海量文本的相似搜索。本发明提出一种海量文本快速相似搜索方法。它提出两步搜索策略，首先通过快速预选进行文本的预搜索，从而快速排除绝大多数的不相关文档，然后在剩余的小结果集上进一步判断相似性。该方法具有很高的效率，可适用于对海量文本的搜索。本发明的方法在海量信息智能检索、文本消重、内容引用发现等应用领域中具有广泛的应用前景。

1.一种用于海量文本快速相似搜索的方法，包括以下步骤：
1)内容读取：读取查询文档的内容；
2)快速预选：利用重要特征快速排除绝大多数的不相关文档，获得小的预选结果集；
3)相似计算：逐个计算预算结果与查询文档的相似度；
4)结果输出：按相似度选择结果并输出。
2.如权利要求1所述的一种用于海量文本快速相似搜索的方法，其特征在于：在第2步所述的快速预选中通过事先建立索引以便加快预选过程。
3.如权利要求2所述的一种用于海量文本快速相似搜索的方法，其特征在于：所述的索引是倒排索引。
4、如权利要求2所述的一种用于海量文本快速相似搜索的方法，其特征在于：所述的索引是高维索引或多重索引。
5.如权利要求3所述的一种用于海量文本快速相似搜索的方法，其特征在于：建立所述倒排索引的步骤包括：
1)特征分析：对查询文档进行分析，计算获得最重要的少数几个词作为特征词以及其权重值；
2)条件生成：将特征词及其权重按逻辑运算组成检索条件；
3)内容检索：根据检索条件利用倒排索引对目标文档集进行检索。
6.如权利要求5所述的一种用于海量文本快速相似搜索的方法，其特征在于：在步骤1)中采用关键词提取技术进行分析，获取特征词及其权重。
7.如权利要求5所述的一种用于海量文本快速相似搜索的方法，其特征在于：在步骤1)中计算获得最重要的3至30个词作为特征词。
8.如权利要求5或6所述的一种用于海量文本快速相似搜索的方法，其特征在于：在步骤2)中将特征词及其权重按“与”运算组成检索条件。
9.如权利要求8所述的一种用于海量文本快速相似搜索的方法，其特征在于：在步骤4中通过考察两方面情况以便选取最后结果：最小相似度阈值和相似度排序中的位置。
10.如权利要求1、2、3、4、5、6或7所述的一种用于海量文本快速相似搜索的方法，其特征在于：在步骤4中通过考察两方面情况以便选取最后结果：最小相似度阈值和相似度排序中的位置。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN101231641B	2007-01-22	2007-01-22	一种自动分析互联网上热点主题传播过程的方法及系统有效专利	北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供