著录项信息
专利名称 | 通过主题词矫正基于向量空间模型文本相似度计算的方法 |
申请号 | CN01131403.6 | 申请日期 | 2001-09-06 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2003-03-19 | 公开/公告号 | CN1403957 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | 暂无 | IPC分类号 | 暂无查看分类表>
|
申请人 | 联想(北京)有限公司 | 申请人地址 | 北京市海淀区上地信息产业基地创业路6号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 联想(北京)有限公司 | 当前权利人 | 联想(北京)有限公司 |
发明人 | 肖航;高建忠;王江;诸光;王楠 |
代理机构 | 北京同立钧成知识产权代理有限公司 | 代理人 | 刘芳 |
摘要
一种通过主题词矫正基于向量空间模型文本相似度计算的方法,它包括:步骤1:提取文本的主题相关信息;步骤2:矫正基于向量空间模型文本相似度计算;该方法能够修正基于向量空间模型文本相似度计算的结果,用当前文本主题词和已定义类的主题词求交,以判断一个文本是否属于已定义的类别,通过反映对主题词相关程度重视的经验值和主题词求交的百分数,构建了更为有效、更为符合自然的文本类别归属结果。
1.一种通过主题词矫正基于向量空间模型文本相似度计算的方法,其特征在于:所述方法包括如下步骤:步骤1:提取文本的主题相关信息;步骤2:对依据步骤1所提取的主题相关信息进行矫正,再依据主题信息矫正后的结果矫正基于向量空间模型文本相似度计算;步骤3:矫正基于向量空间模型文本相似度计算。
2.如权利要求1所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于:所述步骤1提取主题相关信息依据词频、集合频度、词长信息、词以及总词数,取加权后权重最高的为主题相关信息。
3.如权利要求2所述的基于向量空间模型文本相似度计算的方法,其特征在于:所述的提取主题相关信息依据如下计算公式进行:其中,①表示词频因子部分;②表示集合频率因子;③表示词长因子;wik表示词k在文本i中的权值;tf表示词k在文本i中的频率;MAXtf表示文本i中词频最大的词的频率;K1表示对tf的重视程度,通常取值0.5;wl为词k的词长;MAXwl为文本中词长的最大值;K2表示对wl的重视程度,通常取值0.5;Tw为文本i中特征词的总词数。
4.如权利要求1所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于:对所提取的主题相关信息进行矫正为通过主题信息的相交程度,判断内容的相似度。
5.如权利要求1或4所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于:矫正基于向量空间模型文本相似度计算为:相交度大于阈值时,强化特征向量相似度值;相交度小于阈值时,弱化特征向量相似度值。
6.如权利要求1所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于:主题相关信息矫正为:Ris=A+Tis∩CsCs]]>其中,A是反映对主题词相关的重视程度经验值,其中的A的取值范围为0<A<1,Ris是主题词相关系数;Tis是待分析文本i的主题词数;Cs是标准类的主题词数,“∩”是求交运算,即判断Cs包含Tis的数量。
7.如权利要求6所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于:矫正基于向量空间模型文本相似度计算即:=Sim(wi,vj)×Ris其中,Sim(wi,vj)为向量空间模型文本相似度计算。
8.如权利要求1、2、3、4、6或7所述的通过主题相关信息矫正基于向量空间模型文本相似度计算的方法,其特征在于:所述的主题相关信息为主题词或特征词。
法律信息
- 2021-08-17
未缴年费专利权终止
IPC(主分类): G06F 17/21
专利号: ZL 01131403.6
申请日: 2001.09.06
授权公告日: 2004.08.18
- 2004-08-18
- 2003-05-28
- 2003-03-19
- 2002-01-16
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |