加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于可扩展标记语言查询的网页数据抽取方法

发明专利无效专利
  • 申请号:
    CN201010545520.2
  • IPC分类号:G06F17/30
  • 申请日期:
    2010-11-16
  • 申请人:
    东北大学
著录项信息
专利名称基于可扩展标记语言查询的网页数据抽取方法
申请号CN201010545520.2申请日期2010-11-16
法律状态权利终止申报国家中国
公开/公告日2011-03-09公开/公告号CN101984434A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人东北大学申请人地址
辽宁省沈阳市和平区文化路3号巷11号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人东北大学当前权利人东北大学
发明人聂铁铮;于戈;王波涛;岳德君
代理机构沈阳东大专利代理有限公司代理人梁焱
摘要
一种基于可扩展语言查询的网页数据抽取方法,属于计算机数据库技术领域,包括以下:步骤确定Web页面中抽取数据内容时所对应的模式结构;定位Web页面中数据区域、数据单元和属性文本;对属性文本进行语义标注;生成数据单元节点路径:计算抽取属性值的路径表达式;生成数据抽取的XML查询语句;利用XML查询语句抽取数据,本发明能够生成精确的XML查询语句,保证XML查询语句的正确性,本发明具有较高的通用性,能够与已有无缝融合,本发明能够适应更加复杂的查询结果输出。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供