加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种网页表格数据抽取的方法

发明专利有效专利
  • 申请号:
    CN201110200455.4
  • IPC分类号:G06F17/30
  • 申请日期:
    2011-07-15
  • 申请人:
    福建星网锐捷通讯股份有限公司
著录项信息
专利名称一种网页表格数据抽取的方法
申请号CN201110200455.4申请日期2011-07-15
法律状态暂无申报国家中国
公开/公告日2011-11-23公开/公告号CN102254009A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人福建星网锐捷通讯股份有限公司申请人地址
福建省福州市仓山区金山大道618号桔园洲星网锐捷科技园19-22栋 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人福建星网锐捷通讯股份有限公司当前权利人福建星网锐捷通讯股份有限公司
发明人杨凡;黄建雄;林珊
代理机构福州市鼓楼区京华专利事务所(普通合伙)代理人宋连梅
摘要
本发明提供一种网页表格数据抽取的方法,包括:步骤10、读取网页源码,根据字符编码将其解析成W3C的Document对象,获取所述网页表格中的任意两个关键词;步骤20、深度优先遍历Document对象中所有节点,分别获取两关键词所属的两个节点;步骤30、获取两节点具有唯一属性的共同父节点,并利用唯一属性获取网页表格定位条件;步骤40、利用网页表格数据定位条件,过滤网页源代码,抽取和网页显示效果相同的网页表格。本发明根据欲抽取网页表格中的任意两个关键词以及需要的表格行/列值,即可从实时变化的网页中准确快速抽取与原网页显示效果相同的表格,获取指定行/列数据,提高数据抽取的灵活性和准确率。

专利服务由北京酷爱智慧知识产权代理公司提供