加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于文本特征和语法规则的PDF全自动标引系统及方法

发明专利有效专利
  • 申请号:
    CN202011339681.6
  • IPC分类号:G06F40/117;G06F16/84
  • 申请日期:
    2020-11-25
  • 申请人:
    北京邮电大学;北京欢科科技有限公司
著录项信息
专利名称一种基于文本特征和语法规则的PDF全自动标引系统及方法
申请号CN202011339681.6申请日期2020-11-25
法律状态授权申报国家中国
公开/公告日2021-02-02公开/公告号CN112307718A
优先权暂无优先权号暂无
主分类号G06F40/117IPC分类号G;0;6;F;4;0;/;1;1;7;;;G;0;6;F;1;6;/;8;4查看分类表>
申请人北京邮电大学;北京欢科科技有限公司申请人地址
北京市海淀区西土城路10号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京邮电大学,北京欢科科技有限公司当前权利人北京邮电大学,北京欢科科技有限公司
发明人陈科良;任维政;崔岩松;张晓欢;黄云霞;樊昌熙
代理机构北京慕达星云知识产权代理事务所(特殊普通合伙)代理人符继超
摘要
本发明公开了一种基于文本特征和语法规则的PDF全自动标引系统及方法,系统配置解析层、事件分发层、功能实现层。该系统采用了事件驱动的方式,使用了观察者模式的架构,先通过解析PDF生成一个包含基础信息的XML中间文件,然后再使用文本特征以及语法特征分析等技术分析所有的PDF元素以完成自动标引过程;PDF全自动标引方法将整个工作流程分为了七个阶段,分别为元素提取阶段、块聚合阶段、行聚合阶段、图片标签识别阶段、标签匹配阶段、标引文件生成阶段和异常处理阶段,能够实现PDF文件的全自动解析、加标签、聚合并最终导出包含所有信息的结构化数据。本发明提高了系统的扩展性、PDF处理效率和内容利用深度,实现PDF的全自动标引。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供