加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种DeepWeb响应页面数据抽取方法

发明专利无效专利
  • 申请号:
    CN200910010201.9
  • IPC分类号:G06F17/30
  • 申请日期:
    2009-01-21
  • 申请人:
    东北大学
著录项信息
专利名称一种DeepWeb响应页面数据抽取方法
申请号CN200910010201.9申请日期2009-01-21
法律状态权利终止申报国家中国
公开/公告日2009-11-18公开/公告号CN101582074
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人东北大学申请人地址
辽宁省沈阳市和平区文化路3号巷11号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人东北大学当前权利人东北大学
发明人申德荣;于戈;孙高尚;聂铁铮;寇月;王振华
代理机构沈阳东大专利代理有限公司代理人李运萍
摘要
一种DeepWeb响应页面数据抽取方法,属于深层网络数据管理领域,该方法包括以下步骤:(1)选取DeepWeb响应页面Page;在查询页面输入关键字Key,查询得到响应页面Page;(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理以上两个记录的带标记的token字符序列,分隔并过滤公共token字符序列得到模板信息;(3)数据抽取;(4)token块合并;(5)数据表格聚类;本发明的有益效果:采用本发明的数据抽取方法,适用性强,精度高,效率得到大大提高。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供