一种基于流聚类的中文网页文本分类方法

发明专利无效专利

申请号：
CN201010034107.X
IPC分类号：G06F17/30
申请日期：
2010-01-15
申请人：
清华大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种基于流聚类的中文网页文本分类方法
申请号	CN201010034107.X	申请日期	2010-01-15
法律状态	驳回	申报国家	暂无
公开/公告日	2010-06-09	公开/公告号	CN101727500A
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	清华大学	申请人地址	北京市海淀区清华园1号变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	清华大学	当前权利人	清华大学
发明人	卞小丁;袁睿翕;孙立远
代理机构	北京清亦华知识产权代理事务所（普通合伙）	代理人	廖元秋

摘要

本发明涉及一种基于流聚类的中文网页文本分类方法，属于互联网数据挖掘技术领域，该方法包括：实时采集网页；去除未处理过的该网页的格式中的标签，解析出网页中各文本的特征信息；将文本内容分割、做ngram分词，形成多个词串；计算每个词串的权值；提取高权值词串，将该高权值词串及其相应权值作为特征向量；将特征向量以及特征信息与已有类进行相似度的计算；并计算得到的总的相似度，将文本归入已有的一类中或建立一个新类；根据已存在的类中的特征项数量，判断是否将该类分裂成两个子类；对已处理的文本记录和已有的类的信息进行储存。本方法针对网页文本的特点充分挖掘了它的有效信息，使该方法具有增量式、快速、有效及更实用的特点。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供