加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种自动解析互联网网页的方法

发明专利无效专利
  • 申请号:
    CN201410560978.3
  • IPC分类号:G06F17/30
  • 申请日期:
    2014-10-21
  • 申请人:
    浪潮集团有限公司
著录项信息
专利名称一种自动解析互联网网页的方法
申请号CN201410560978.3申请日期2014-10-21
法律状态驳回申报国家中国
公开/公告日2015-01-07公开/公告号CN104268283A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人浪潮集团有限公司申请人地址
山东省济南市高新区舜雅路1036号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人浪潮集团有限公司当前权利人浪潮集团有限公司
发明人范莹;于治楼;梁华勇
代理机构济南信达专利事务所有限公司代理人姜明
摘要
本发明涉及一种自动解析互联网网页的方法,属于网页解析领域;用户利用垂直搜索抽取某个行业涉及的网站的结构化数据,根据抽取的结构化数据建立模板,具体步骤如下:①选取行业涉及的代表网页,在行业分词词库最新的情况下,对代表网页进行分词并展现给用户;②根据网页分词结果的图形化展示,提供正则表达式匹配项;③根据正则表达式匹配项,选取需要提取的数据并设置数据名称;④根据正则表达式,自动生成抽取结构化数据程序,建立垂直搜索模板;⑤给垂直搜索模板加标签,根据垂直搜索模板,自动解析行业涉及的所有网页;本发明利用分词、正则表达式及标签解析技术,达到垂直搜索引擎实现了智能网页解析的目的。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供