基于中文标点符号的三重网页文本内容识别及过滤方法

发明专利无效专利

申请号：
CN200710011057.1
IPC分类号：H04L29/06;G06F17/30;G06F17/27
申请日期：
2007-04-18
申请人：
大连理工大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	基于中文标点符号的三重网页文本内容识别及过滤方法
申请号	CN200710011057.1	申请日期	2007-04-18
法律状态	权利终止	申报国家	中国
公开/公告日	2007-09-12	公开/公告号	CN101035128
优先权	暂无	优先权号	暂无
主分类号	H04L29/06 ? IPC结构图谱： H 电学 H9 电学 H04 电通信技术 H04L 数字信息的传输，例如电报通信（电报和电话通信的公用设备入H04M）〔4〕 H04L29/00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统〔5〕 H04L29/02 通信控制；通信处理（H04L 29/12，H04L 29/14优先）〔5〕 H04L29/06 以协议为特征的〔5〕	IPC分类号	H;0;4;L;2;9;/;0;6;;;G;0;6;F;1;7;/;3;0;;;G;0;6;F;1;7;/;2;7查看分类表>
申请人	大连理工大学	申请人地址	辽宁省大连市甘井子区凌工路2号变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	大连理工大学	当前权利人	大连理工大学
发明人	宋明秋;吴新涛
代理机构	大连理工大学专利中心	代理人	侯明远;李宝元

摘要

一种基于中文标点符号的三重网页文本内容识别及过滤方法。该方法针对现有的基于URL、基于关键字的网页信息过滤方法中存在的滤准率和滤全率低的问题，提出了一种复合型的基于URL、基于关键字、以及基于文本向量空间知识表示方法的网页文本内容过滤方法。采用基于黑白名单的URL地址过滤方法；采用中文标点符号的统计特征来有效地去除导航信息、相关链接信息、广告链接信息、版权信息等网页内容噪声信息，提取文本内容；采用向量空间模型进行文本知识表示，通过计算文本向量与不良信息模版中特征向量间的夹角余弦，与设定的阈值相比较，确定文本所属类别。该发明可广泛地应用于网络不良信息的过滤及网页个性化信息服务领域。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供