加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于垂直搜索和聚焦爬虫的网页分类技术

发明专利无效专利
  • 申请号:
    CN200910025724.0
  • IPC分类号:G06F17/30
  • 申请日期:
    2009-03-06
  • 申请人:
    苏州锐创通信有限责任公司
著录项信息
专利名称基于垂直搜索和聚焦爬虫的网页分类技术
申请号CN200910025724.0申请日期2009-03-06
法律状态撤回申报国家中国
公开/公告日2009-09-02公开/公告号CN101520798
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人苏州锐创通信有限责任公司申请人地址
江苏省南京市鼓楼区中山北路212号雅舍办公楼502室 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人苏州锐创通信有限责任公司当前权利人苏州锐创通信有限责任公司
发明人王攀;张顺颐;宫婷
代理机构暂无代理人暂无
摘要
基于垂直搜索和聚焦爬虫技术的网页分类识别方法,该方法包括两个部分:网页源码获取和网页内容解析法。其中网页内容解析法是核心,它包括两个主要的部分:抽取网页的结构化信息和聚焦爬虫的爬行策略。首先从导航类站点URL表中取出一个URL,获取此URL的源文件,然后用网页内容解析法进行识别得到该导航URL站点所有分类的URL。该方法中的关键方法是网页内容解析法,首先抽取网页结构化信息,然后运用基于网页内容特征的定向广度优先搜索策略进行URL的抓取,最后将抓取的URL及对应的网站分类存放在表Category中。

专利服务由北京酷爱智慧知识产权代理公司提供