加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种新闻网页元数据自动抽取方法

发明专利无效专利
  • 申请号:
    CN200810038788.X
  • IPC分类号:G06F17/30
  • 申请日期:
    2008-06-11
  • 申请人:
    华东师范大学
著录项信息
专利名称一种新闻网页元数据自动抽取方法
申请号CN200810038788.X申请日期2008-06-11
法律状态权利终止申报国家暂无
公开/公告日2008-10-22公开/公告号CN101290624
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人华东师范大学申请人地址
上海市中山北路3663号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人华东师范大学当前权利人华东师范大学
发明人顾君忠;杨静;刘海学;孟玲玲;何正华;费静婷;王海棠;刘峰;闫宇;秦鹏;吴芳
代理机构上海伯瑞杰知识产权代理有限公司代理人吴泽群
摘要
本发明涉及一种在互联网新闻网页上进行元数据自动抽取的方法,元数据抽取系统向新闻网站服务器发送网页请求,服务器在通过一定的安全检测后将所要求的页面发往元数据抽取模块主机。元数据抽取系统在得到了一定数量的网页集合后,通过DOM技术深入分析每个网页内部的信息,挖掘集合内各个网页间的相互关系,最终得到标准所规定的元数据值。系统将元数据值转化为XML格式后,通过I/O接口向外部存储设备输出,形成XML格式的元数据文件。本发明实现了在无人工干预的情况下,系统依据依据相关元数据标准从目标文档中自动抽取元数据信息,并将结果进行合理组织和存储的全过程。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供