加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于社会标注的主题爬虫系统

发明专利无效专利
  • 申请号:
    CN200910062020.0
  • IPC分类号:G06F17/30
  • 申请日期:
    2009-05-08
  • 申请人:
    华中科技大学
著录项信息
专利名称基于社会标注的主题爬虫系统
申请号CN200910062020.0申请日期2009-05-08
法律状态权利终止申报国家中国
公开/公告日2009-10-21公开/公告号CN101561814
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人华中科技大学申请人地址
湖北省武汉市洪山区珞喻路1037号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人华中科技大学当前权利人华中科技大学
发明人李瑞轩,文坤梅,赵勇,辜希武,卢正鼎,靳延安,丁益斌
代理机构华中科技大学专利中心代理人曹葆青
摘要
一种基于社会标注的主题爬虫系统,包括页面获取模块,页面处理模块,相关度计算模块,存储模块,链接提取模块和链接分析模块。系统充分利用了网页的社会标注,是对页面内容公认的描述,更加贴近网页描述的真实内容,利用此性质来进行网页相关性的判断,将其应用在网络主题爬虫中,指导爬虫的爬行方向,对主题搜索引擎提供优质的网页数据内容。本发明很好地利用了网络带宽资源,在网页获取的过程中减少了不必要的开销,针对不同的需求采用不同的存储方式,减少了IO的消耗,采用了多级缓存机制,减少了阻塞,提高了爬虫的效率。该系统在社会标注的支撑下,优化了爬虫架构,为后续主题搜索引擎其他处理流程提供最佳的网页数据集。

专利服务由北京酷爱智慧知识产权代理公司提供