加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

文档聚类方法及装置、网络设备

发明专利有效专利
  • 申请号:
    CN201410160939.4
  • IPC分类号:G06F16/35
  • 申请日期:
    2014-04-21
  • 申请人:
    北京金山网络科技有限公司
著录项信息
专利名称文档聚类方法及装置、网络设备
申请号CN201410160939.4申请日期2014-04-21
法律状态授权申报国家中国
公开/公告日2015-11-25公开/公告号CN105095209A
优先权暂无优先权号暂无
主分类号G06F16/35IPC分类号G;0;6;F;1;6;/;3;5查看分类表>
申请人北京金山网络科技有限公司申请人地址
广东省珠海市横琴新区宝华路6号105室-53967(集中办公区) 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人珠海豹好玩科技有限公司当前权利人珠海豹好玩科技有限公司
发明人万振;张凯达
代理机构北京银龙知识产权代理有限公司代理人许静;黄灿
摘要
本发明提供了一种文档聚类方法及装置、网络设备,属于数据挖掘、文档聚类及web网页聚类技术领域。该方法包括步骤a将待聚类的文档分为多组;步骤b对其中一组文档通过聚类算法进行聚类,获取初始簇,初始簇对应有频繁项集;步骤c获取余下的另外一组文档的特征词,根据特征词和初始簇对应的频繁项集,将特征词包含在频繁项集中的文档聚类到频繁项集对应的初始簇,并对剩下的特征词未包含在频繁项集中的文档进行聚类获取新的对应有频繁项集的初始簇;步骤d判断是否存在未聚类的文档组,如存在,转向步骤c;如不存在,存储聚类成的多个初始簇和每个初始簇对应的频繁项集。本发明的技术方案能够提高文档聚类的速度并且节约计算资源。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供