一种低资源语种与通用语种的字典词条提取及识别方法

发明专利有效专利

申请号：
CN202010501435.X
IPC分类号：G06K9/00;G06K9/32;G06K9/62;G06N3/04;G06F40/242
申请日期：
2020-06-04
申请人：
广东外语外贸大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种低资源语种与通用语种的字典词条提取及识别方法
申请号	CN202010501435.X	申请日期	2020-06-04
法律状态	实质审查	申报国家	暂无
公开/公告日	2020-09-11	公开/公告号	CN111652157A
优先权	暂无	优先权号	暂无
主分类号	G06K9/00 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06K 数据识别；数据表示；记录载体；记录载体的处理（印刷本身入B41J） G06K9/00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置（用于图表阅读或者将诸如力或现状态的机械参量的图形转换为电信号的方法或装置入G06K 11/00；语音识别入G10L 15/00）〔1，7〕	IPC分类号	G;0;6;K;9;/;0;0;;;G;0;6;K;9;/;3;2;;;G;0;6;K;9;/;6;2;;;G;0;6;N;3;/;0;4;;;G;0;6;F;4;0;/;2;4;2查看分类表>
申请人	广东外语外贸大学	申请人地址	广东省广州市白云大道北2号变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	广东外语外贸大学	当前权利人	广东外语外贸大学
发明人	颜学明;薛海威;蒋盛益;刘建明
代理机构	北京化育知识产权代理有限公司	代理人	尹均利

摘要

本发明公开了一种低资源语种与通用语种的字典词条提取及识别方法，在完成训练基础网络模型之后，包括以下步骤：首先对输入的字典图像进行几何校正和二值化等预处理；检测字典分栏情况，字典被分为两栏或多栏，将文本框间小于一定阈值T的框选为统一栏；在每一栏中进行图像词条切割；将切割获得的目标词条图像传入文本识别模块。本发明一种低资源语种与通用语种的字典词条提取及识别方法，通过先对输入的字典图像进行预处理矫正，再对输入的字典图像进行文本检测，然后再对字典进行分栏检测，将切割获得的词条文本图像传入文本识别模块，最后对识别结果按语料库格式规范化并自动导入指定语料库，极大提高字典词条导入语料库的效率。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供