加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

文档的处理方法及装置

发明专利有效专利
  • 申请号:
    CN201910697312.5
  • IPC分类号:G06F16/35
  • 申请日期:
    2019-07-30
  • 申请人:
    北京明略软件系统有限公司
著录项信息
专利名称文档的处理方法及装置
申请号CN201910697312.5申请日期2019-07-30
法律状态实质审查申报国家中国
公开/公告日2019-11-08公开/公告号CN110427488A
优先权暂无优先权号暂无
主分类号G06F16/35IPC分类号G;0;6;F;1;6;/;3;5查看分类表>
申请人北京明略软件系统有限公司申请人地址
北京市海淀区中关村东路1号院1号楼10层A1002 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京明略软件系统有限公司当前权利人北京明略软件系统有限公司
发明人袁灿;于政
代理机构北京康信知识产权代理有限责任公司代理人江舟
摘要
本发明公开了一种文档的处理方法及装置。该方法包括:通过获取文档中的多个文本块;通过分类器确定多个文件块中每个文本块的所属标签,以及通过预设的语言模型对多个文件块中两两相邻的文本块进行分析,得到两两相邻的文本块的连续概率,其中,语言模型为使用多组数据通过机器学习训练出的,多组数据中的每组数据均包括:两两相邻的文本块和两两相邻的文本块的连续概率;在确定指定的两两相邻的文本块的连续概率的大于预设阈值,且指定的两两相邻的文本块属于同一标签的情况下,将指定的两两相邻的文本块进行合并。本发明解决了现有技术中,对文档中的文本进行合并时,由于文本中存在换行、分栏等情况,导致文本合并存在精确度低的技术问题。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供