著录项信息
专利名称 | 一种用于海量文本快速相似搜索的方法 |
申请号 | CN200510117001.5 | 申请日期 | 2005-10-28 |
法律状态 | 驳回 | 申报国家 | 中国 |
公开/公告日 | 2006-06-21 | 公开/公告号 | CN1790321 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学 | 申请人地址 | 北京市海淀区成府路298号方正大厦
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北大方正集团有限公司,北京北大方正技术研究院有限公司,北京大学 | 当前权利人 | 北大方正集团有限公司,北京北大方正技术研究院有限公司,北京大学 |
发明人 | 杨建武;吴於茜;陈晓鸥 |
代理机构 | 北京英赛嘉华知识产权代理有限责任公司 | 代理人 | 田明;王达佐 |
摘要
本发明涉及一种用于海量文本快速相似搜索的方法,属于智能信息处理技术。当数据集的维数较高(超过20)或数据量很大(超过10万)时,现有技术方法的性能迅速降低,难以满足海量文本的相似搜索。本发明提出一种海量文本快速相似搜索方法。它提出两步搜索策略,首先通过快速预选进行文本的预搜索,从而快速排除绝大多数的不相关文档,然后在剩余的小结果集上进一步判断相似性。该方法具有很高的效率,可适用于对海量文本的搜索。本发明的方法在海量信息智能检索、文本消重、内容引用发现等应用领域中具有广泛的应用前景。
1.一种用于海量文本快速相似搜索的方法,包括以下步骤:
1)内容读取:读取查询文档的内容;
2)快速预选:利用重要特征快速排除绝大多数的不相关文档,获得小的 预选结果集;
3)相似计算:逐个计算预算结果与查询文档的相似度;
4)结果输出:按相似度选择结果并输出。
2.如权利要求1所述的一种用于海量文本快速相似搜索的方法,其特征 在于:在第2步所述的快速预选中通过事先建立索引以便加快预选过程。
3.如权利要求2所述的一种用于海量文本快速相似搜索的方法,其特征 在于:所述的索引是倒排索引。
4、如权利要求2所述的一种用于海量文本快速相似搜索的方法,其特征 在于:所述的索引是高维索引或多重索引。
5.如权利要求3所述的一种用于海量文本快速相似搜索的方法,其特征 在于:建立所述倒排索引的步骤包括:
1)特征分析:对查询文档进行分析,计算获得最重要的少数几个词作为 特征词以及其权重值;
2)条件生成:将特征词及其权重按逻辑运算组成检索条件;
3)内容检索:根据检索条件利用倒排索引对目标文档集进行检索。
6.如权利要求5所述的一种用于海量文本快速相似搜索的方法,其特征 在于:在步骤1)中采用关键词提取技术进行分析,获取特征词及其权重。
7.如权利要求5所述的一种用于海量文本快速相似搜索的方法,其特征 在于:在步骤1)中计算获得最重要的3至30个词作为特征词。
8.如权利要求5或6所述的一种用于海量文本快速相似搜索的方法,其 特征在于:在步骤2)中将特征词及其权重按“与”运算组成检索条件。
9.如权利要求8所述的一种用于海量文本快速相似搜索的方法,其特征 在于:在步骤4中通过考察两方面情况以便选取最后结果:最小相似度阈值 和相似度排序中的位置。
10.如权利要求1、2、3、4、5、6或7所述的一种用于海量文本快速相 似搜索的方法,其特征在于:在步骤4中通过考察两方面情况以便选取最后 结果:最小相似度阈值和相似度排序中的位置。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2007-01-22 | 2007-01-22 | | |