加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种从PDF文档中提取表格信息的方法及系统

发明专利有效专利
  • 申请号:
    CN202110751861.3
  • IPC分类号:G06K9/00;G06K9/34
  • 申请日期:
    2021-07-02
  • 申请人:
    西南科技大学
著录项信息
专利名称一种从PDF文档中提取表格信息的方法及系统
申请号CN202110751861.3申请日期2021-07-02
法律状态公开申报国家中国
公开/公告日2021-11-19公开/公告号CN113673306A
优先权暂无优先权号暂无
主分类号G06K9/00IPC分类号G;0;6;K;9;/;0;0;;;G;0;6;K;9;/;3;4查看分类表>
申请人西南科技大学申请人地址
四川省绵阳市涪城区青龙大道中段59号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人西南科技大学当前权利人西南科技大学
发明人杨春明;谢明旭;张晖
代理机构成都九鼎天元知识产权代理有限公司代理人吴彦峰
摘要
本发明公开了一种从PDF文档中提取表格信息的方法及系统,该方法包括以下步骤:S1,截取PDF格式文档中的表格部分的图像,生成为新PDF文档,为新PDF文档添加可直接修改的文字层;S2,分析新PDF文档中的表格图片,识别出表格图片中被隐藏的内部框线,划线补充内部框线,得到具有完整框线的表格图片;S3,识别拥有完整框线的表格图片,获取表格文字信息的同时保留表格图片的完整框线,将表格图片中的文字信息和框线信息转为电子表格文件。本发明解决了现有技术存在的提取不具有完整框线的PDF文档或表格图片时准确度差、鲁棒性欠缺,如果中途出现提取错误无法从中间步骤快速干预修复等问题。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供