加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于中文标点符号的三重网页文本内容识别及过滤方法

发明专利无效专利
  • 申请号:
    CN200710011057.1
  • IPC分类号:H04L29/06;G06F17/30;G06F17/27
  • 申请日期:
    2007-04-18
  • 申请人:
    大连理工大学
著录项信息
专利名称基于中文标点符号的三重网页文本内容识别及过滤方法
申请号CN200710011057.1申请日期2007-04-18
法律状态权利终止申报国家中国
公开/公告日2007-09-12公开/公告号CN101035128
优先权暂无优先权号暂无
主分类号H04L29/06IPC分类号H;0;4;L;2;9;/;0;6;;;G;0;6;F;1;7;/;3;0;;;G;0;6;F;1;7;/;2;7查看分类表>
申请人大连理工大学申请人地址
辽宁省大连市甘井子区凌工路2号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人大连理工大学当前权利人大连理工大学
发明人宋明秋;吴新涛
代理机构大连理工大学专利中心代理人侯明远;李宝元
摘要
一种基于中文标点符号的三重网页文本内容识别及过滤方法。该方法针对现有的基于URL、基于关键字的网页信息过滤方法中存在的滤准率和滤全率低的问题,提出了一种复合型的基于URL、基于关键字、以及基于文本向量空间知识表示方法的网页文本内容过滤方法。采用基于黑白名单的URL地址过滤方法;采用中文标点符号的统计特征来有效地去除导航信息、相关链接信息、广告链接信息、版权信息等网页内容噪声信息,提取文本内容;采用向量空间模型进行文本知识表示,通过计算文本向量与不良信息模版中特征向量间的夹角余弦,与设定的阈值相比较,确定文本所属类别。该发明可广泛地应用于网络不良信息的过滤及网页个性化信息服务领域。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供