加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

自适应语义驱动的主题网页过滤系统

发明专利有效专利
  • 申请号:
    CN200810240359.0
  • IPC分类号:G06F17/30
  • 申请日期:
    2008-12-17
  • 申请人:
    中国科学院自动化研究所
著录项信息
专利名称自适应语义驱动的主题网页过滤系统
申请号CN200810240359.0申请日期2008-12-17
法律状态授权申报国家中国
公开/公告日2010-06-23公开/公告号CN101751438A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人中国科学院自动化研究所申请人地址
北京市海淀区中关村东路95号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人中国科学院自动化研究所当前权利人中国科学院自动化研究所
发明人张文生;杨彦武;刘琰琼;李益群;肖宪;梁玉旋
代理机构中科专利商标代理有限责任公司代理人周国城
摘要
本发明公开了一种自适应语义驱动的主题网页过滤系统,该系统能针对不同的网页集自适应的选用不同的处理方法得到一棵分类语义树,包括爬虫、文本分类以及文本层次聚类;然后采用一种新的网页评估算法——语义驱动的主题网页算法来计算网页的STP值,即对主题相关度及其本身网页重要性两方面的综合评估。对于不同应用,经过多次测试选择一个过滤效果最好的阈值,对STP值低于该阈值的网页进行舍弃。本方法提出了对不同网页集分别对待的思想,对系统资源利用率和网页主题相关度准确率有很大改进,并提出一种语义驱动的STP算法,改善了原来PageRank的不足,能够很好的过滤不相关网页。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供