加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于流聚类的中文网页文本分类方法

发明专利无效专利
  • 申请号:
    CN201010034107.X
  • IPC分类号:G06F17/30
  • 申请日期:
    2010-01-15
  • 申请人:
    清华大学
著录项信息
专利名称一种基于流聚类的中文网页文本分类方法
申请号CN201010034107.X申请日期2010-01-15
法律状态驳回申报国家暂无
公开/公告日2010-06-09公开/公告号CN101727500A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人清华大学申请人地址
北京市海淀区清华园1号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人清华大学当前权利人清华大学
发明人卞小丁;袁睿翕;孙立远
代理机构北京清亦华知识产权代理事务所(普通合伙)代理人廖元秋
摘要
本发明涉及一种基于流聚类的中文网页文本分类方法,属于互联网数据挖掘技术领域,该方法包括:实时采集网页;去除未处理过的该网页的格式中的标签,解析出网页中各文本的特征信息;将文本内容分割、做ngram分词,形成多个词串;计算每个词串的权值;提取高权值词串,将该高权值词串及其相应权值作为特征向量;将特征向量以及特征信息与已有类进行相似度的计算;并计算得到的总的相似度,将文本归入已有的一类中或建立一个新类;根据已存在的类中的特征项数量,判断是否将该类分裂成两个子类;对已处理的文本记录和已有的类的信息进行储存。本方法针对网页文本的特点充分挖掘了它的有效信息,使该方法具有增量式、快速、有效及更实用的特点。

专利服务由北京酷爱智慧知识产权代理公司提供