加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于网络热词识别的网页自动分类方法

发明专利无效专利
  • 申请号:
    CN201310114155.3
  • IPC分类号:G06F17/30;G06F17/27
  • 申请日期:
    2013-04-03
  • 申请人:
    南京安讯科技有限责任公司
著录项信息
专利名称一种基于网络热词识别的网页自动分类方法
申请号CN201310114155.3申请日期2013-04-03
法律状态撤回申报国家中国
公开/公告日2013-07-03公开/公告号CN103186675A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0;;;G;0;6;F;1;7;/;2;7查看分类表>
申请人南京安讯科技有限责任公司申请人地址
江苏省南京市软件大道119号丰盛商汇5号楼2层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人南京安讯科技有限责任公司当前权利人南京安讯科技有限责任公司
发明人邵伟;昂卫武;黄汇
代理机构暂无代理人暂无
摘要
本发明涉及一种基于网络热词识别的网页自动分类方法,主要包括:利用定制爬虫获取网页内容信息;通过互联网关键词库以及互联网停用词库对获取的网页内容进行自动分词。根据关键词出现的频率和时间远近程度去计算其热度值,之后依照该词的热度值利用贝叶斯多维分类模型对网页内容进行初分类。利用关联算法对已归类网页中未匹配分词项进行关联识别,找出互联网关键词库中尚未收集的热词并将其收录至互联网关键词库中。利用更新后的互联网词库对网页初分类过程中无法归类的网页内容进行再分类。

专利服务由北京酷爱智慧知识产权代理公司提供