加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种搜索引擎中基于类中心压缩变换的文本聚类方法

发明专利有效专利
  • 申请号:
    CN201210447277.X
  • IPC分类号:G06F17/30
  • 申请日期:
    2012-11-09
  • 申请人:
    北京航空航天大学
著录项信息
专利名称一种搜索引擎中基于类中心压缩变换的文本聚类方法
申请号CN201210447277.X申请日期2012-11-09
法律状态暂无申报国家暂无
公开/公告日2013-03-06公开/公告号CN102955857A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人北京航空航天大学申请人地址
广东省珠海市香洲区唐家湾金唐路1号港湾1号科创园8栋5楼 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人珠海市颢腾智胜科技有限公司当前权利人珠海市颢腾智胜科技有限公司
发明人欧阳元新;袁满;谢舒翼;刘文琦;熊璋
代理机构北京科迪生专利代理有限责任公司代理人杨学明;顾炜
摘要
本发明公开了一种搜索引擎中基于类中心压缩变换的文本聚类方法,该方法利用改进的tf-idf公式计算文本集中每个文档的词汇权重,计算初始类中心,挖掘同义词组和共现高频词组,计算词汇中心,依据初始类中心与各文档的相似度进行初次分类;根据标题词汇,文章长度,同义词,共现关联词等信息,压缩中心词汇,使得同一个词汇只出现在与其相似高的一些类中心里,利用新的聚类中心对文档集进行重新聚类。计算每个类的核心相似度,对最大的类进行分裂,对较小的类进行合并以产生新的类。对压缩,聚类,分裂操作进行迭代,直到类的个数收敛,且同一个类中的文本与类中心相似度到达一定阈值。本发明聚类精度明显高于传统的KMeans,DBSCAN等方法。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供