加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

短文本垃圾识别以及建模方法和装置

发明专利有效专利
  • 申请号:
    CN201310278012.6
  • IPC分类号:G06F17/27;G06F17/30
  • 申请日期:
    2013-07-04
  • 申请人:
    微梦创科网络科技(中国)有限公司
著录项信息
专利名称短文本垃圾识别以及建模方法和装置
申请号CN201310278012.6申请日期2013-07-04
法律状态授权申报国家中国
公开/公告日2013-10-02公开/公告号CN103336766A
优先权暂无优先权号暂无
主分类号G06F17/27IPC分类号G;0;6;F;1;7;/;2;7;;;G;0;6;F;1;7;/;3;0查看分类表>
申请人微梦创科网络科技(中国)有限公司申请人地址
北京市海淀区海淀北二街10号701室 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人微梦创科网络科技(中国)有限公司当前权利人微梦创科网络科技(中国)有限公司
发明人姜贵彬
代理机构北京市京大律师事务所代理人张璐;方晓明
摘要
本发明公开了一种短文本垃圾识别以及建模方法和装置,所述方法包括:对待判定短文本进行分词得到词语集合,并对所述待判定短文本进行垃圾特征分析得到分析信息;将所述待判定短文本的分析信息以及词语集合中每个词语分别与预先确定的特征元素集合中的特征元素进行比较,根据与所述特征元素集合中的特征元素相匹配的词语或分析信息的特征值,生成所述待判定短文本的词语特征向量;根据所述待判定短文本的词语特征向量,以及分类模型,确定所述待判定短文本是否为垃圾文本;其中分类模型是结合训练集中的样本数,选择合适的分类算法预先训练出的。由于采用扩充了分析信息的特征值的词语特征向量进行垃圾识别,从而提高了识别垃圾文本的识别准确率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供