著录项信息
专利名称 | 一种文字识别方法及装置 |
申请号 | CN201310297948.3 | 申请日期 | 2013-07-16 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2015-01-21 | 公开/公告号 | CN104298982A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/20 | IPC分类号 | G;0;6;K;9;/;2;0查看分类表>
|
申请人 | 深圳市腾讯计算机系统有限公司 | 申请人地址 | 广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 深圳市腾讯计算机系统有限公司 | 当前权利人 | 深圳市腾讯计算机系统有限公司 |
发明人 | 梅树起;陈泳君;刘伯兴 |
代理机构 | 广州三环专利商标代理有限公司 | 代理人 | 贾允;肖丁 |
摘要
本发明涉及一种文字识别方法,包括以下步骤:定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断步骤:判断该局部背景是否属于复杂背景;确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。本发明还提供一种文字识别装置。利用本发明可以提高复杂背景中文字识别的准确率。
1.一种文字识别方法,其特征在于,该方法包括以下步骤:
定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;
背景判断步骤:判断该局部背景是否属于复杂背景;所述判断该局部背景是否属于复杂背景包括:
计算该局部背景的主颜色对应的像素总数占该局部背景的像素总数的比例,得到第一比例值;
判断该第一比例值是否小于第一阈值;若是,则判定该局部背景属于复杂背景;
若该第一比例值不小于该第一阈值,则判断该第一比例值是否大于第二阈值;
若该第一比例值不大于该第二阈值,则计算整体背景的主颜色对应的像素总数占该整体背景的像素总数的比例,得到第二比例值;
判断该第二比例值是否小于第三阈值,若是,则判定该局部背景属于复杂背景;
确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;
构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。
2.如权利要求1所述的文字识别方法,其特征在于,所述定位步骤还包括:
获取该文字区域的位置坐标及该文字的笔画信息。
3.如权利要求2所述的文字识别方法,其特征在于,所述背景判断步骤还包括:
根据该文字区域的位置坐标及该文字的笔画信息生成二值图,该二值图包括灰度值为第一预设值的第一像素组,以及灰度值为第二预设值的第二像素组,该第一像素组反映图像中的该文字,第二像素组反映该图像中文字以外的部分,即整体背景。
4.如权利要求3所述的文字识别方法,其特征在于,所述背景判断步骤还包括:
对所生成的该二值图进行膨胀处理。
5.如权利要求4所述的文字识别方法,其特征在于,所述计算该局部背景的主颜色对应的像素总数占该局部背景的像素总数的比例,得到第一比例值步骤之前,还包括:
根据该二值图确定该文字区域中所述局部背景对应的像素;
对该局部背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该局部背景的主颜色;
统计该局部背景的主颜色对应的像素总数。
6.如权利要求5所述的文字识别方法,其特征在于,所述计算整体背景的主颜色对应的像素总数占该整体背景的像素总数的比例,得到第二比例值步骤之前,还包括:
根据该二值图确定该图像的所述整体背景对应的像素;对该整体背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该整体背景的主颜色;
统计该整体背景的主颜色对应的像素总数。
7.如权利要求3所述的文字识别方法,其特征在于,所述确定步骤包括:
根据该二值图确定该文字对应的像素;
统计该文字对应的各像素的颜色,对所统计的各像素的颜色进行聚类,得到该文字的颜色。
8.如权利要求7所述的文字识别方法,其特征在于,所述构建步骤包括:
分别计算该文字区域的各像素的颜色与该文字的颜色的距离,以该距离作为对应像素的颜色值,生成颜色距离图;
对该颜色距离图进行二值化处理,得到所述掩模。
9.如权利要求8所述的文字识别方法,其特征在于,所述对该颜色距离图进行二值化处理的步骤包括:
对该颜色距离图进行局部自适应二值化处理。
10.如权利要求8所述的文字识别方法,其特征在于,所述构建步骤还包括:
对该掩模进行去除点噪声处理。
11.如权利要求1所述的文字识别方法,其特征在于,所述定位步骤还包括:
检测该文字的倾斜角度。
12.如权利要求11所述的文字识别方法,其特征在于,所述构建步骤之后还包括:
根据该倾斜角度对该文字区域及该掩模进行倾斜校正。
13.如权利要求1所述的文字识别方法,其特征在于,所述第一识别步骤还包括:
对该掩模进行版面分析及单字切分操作,从而使用该掩模从文字区域中将每一个文字提取出来进行识别。
14.如权利要求1所述的文字识别方法,其特征在于,所述第一识别步骤还包括:
对该掩模进行膨胀处理。
15.如权利要求1所述的文字识别方法,其特征在于,所述第一识别步骤还包括:
对所提取文字进行归一化处理后再进行识别。
16.如权利要求11所述的文字识别方法,其特征在于,还包括:
处理步骤:若该局部背景不属于复杂背景,则对该文字区域进行二值化处理;
第二识别步骤:对二值化处理后的该文字区域进行版面分析及单字切分操作,将文字区域中每个文字提取出来进行识别,并输出识别结果。
17.如权利要求16所述的文字识别方法,其特征在于,所述对该文字区域进行二值化处理的步骤后还包括:
根据该倾斜角度对该文字区域进行倾斜校正。
18.一种文字识别装置,其特征在于,该装置包括:
定位模块,用于获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;
背景判断模块,用于判断该局部背景是否属于复杂背景;所述判断该局部背景是否属于复杂背景包括:
计算该局部背景的主颜色对应的像素总数占该局部背景的像素总数的比例,得到第一比例值;
判断该第一比例值是否小于第一阈值;若是,则判定该局部背景属于复杂背景;
若该第一比例值不小于该第一阈值,则判断该第一比例值是否大于第二阈值;
若该第一比例值不大于该第二阈值,则计算整体背景的主颜色对应的像素总数占该整体背景的像素总数的比例,得到第二比例值;
判断该第二比例值是否小于第三阈值,若是,则判定该局部背景属于复杂背景;
确定模块,用于若该局部背景属于复杂背景,则确定该文字的颜色;
构建模块,用于结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别模块,用于使用该掩模从文字区域中提取文字进行识别,并输出识别结果。
19.如权利要求18所述的文字识别装置,其特征在于,所述定位模块还用于:
获取该文字区域的位置坐标及该文字的笔画信息。
20.如权利要求19所述的文字识别装置,其特征在于,所述背景判断模块还用于:
根据该文字区域的位置坐标及该文字的笔画信息生成二值图,该二值图包括灰度值为第一预设值的第一像素组,以及灰度值为第二预设值的第二像素组,该第一像素组反映图像中的该文字,第二像素组反映该图像中文字以外的部分,即整体背景。
21.如权利要求20所述的文字识别装置,其特征在于,所述背景判断模块还用于:
对所生成的该二值图进行膨胀处理。
22.如权利要求21所述的文字识别装置,其特征在于,所述背景判断模块还用于:
根据该二值图确定该文字区域中所述局部背景对应的像素;
对该局部背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该局部背景的主颜色;
统计该局部背景的主颜色对应的像素总数。
23.如权利要求22所述的文字识别装置,其特征在于,所述背景判断模块还用于:
根据该二值图确定该图像的所述整体背景对应的像素;
对该整体背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该整体背景的主颜色;
统计该整体背景的主颜色对应的像素总数。
24.如权利要求20所述的文字识别装置,其特征在于,所述确定模块用于:
根据该二值图确定该文字对应的像素;
统计该文字对应的各像素的颜色,对所统计的各像素的颜色进行聚类,得到该文字的颜色。
25.如权利要求24所述的文字识别装置,其特征在于,所述构建模块用于:
分别计算该文字区域的各像素的颜色与该文字的颜色的距离,以该距离作为对应像素的颜色值,生成颜色距离图;
对该颜色距离图进行二值化处理,得到所述掩模。
26.如权利要求25所述的文字识别装置,其特征在于,所述对该颜色距离图进行二值化处理包括:
对该颜色距离图进行局部自适应二值化处理。
27.如权利要求25所述的文字识别装置,其特征在于,所述构建模块还用于:
对该掩模进行去除点噪声处理。
28.如权利要求18所述的文字识别装置,其特征在于,所述定位模块还用于:
检测该文字的倾斜角度。
29.如权利要求28所述的文字识别装置,其特征在于,所述构建模块还用于:
根据该倾斜角度对该文字区域及该掩模进行倾斜校正。
30.如权利要求18所述的文字识别装置,其特征在于,所述第一识别模块还用于:
对该掩模进行版面分析及单字切分操作,从而使用该掩模从文字区域中将每一个文字提取出来进行识别。
31.如权利要求18所述的文字识别装置,其特征在于,所述第一识别模块还用于:
对该掩模进行膨胀处理。
32.如权利要求18所述的文字识别装置,其特征在于,所述第一识别模块还用于:
对所提取文字进行归一化处理后再进行识别。
33.如权利要求28所述的文字识别装置,其特征在于,还包括:
处理模块,用于若该局部背景不属于复杂背景,则对该文字区域进行二值化处理;
第二识别模块,用于对二值化处理后的该文字区域进行版面分析及单字切分操作,将文字区域中每个文字提取出来进行识别,并输出识别结果。
34.如权利要求33所述的文字识别装置,其特征在于,所述对该文字区域进行二值化处理后还包括:
根据该倾斜角度对该文字区域进行倾斜校正。
一种文字识别方法及装置\n技术领域\n[0001] 本发明具体实施例涉及信息处理技术领域,特别涉及一种文字识别方法及装置。\n背景技术\n[0002] 随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用,图像中信息越来越引起人们的关注。其中嵌入在图像中的文字是图像语义内容的一种重要表达方式,能够提供一些人们所需要的重要信息。例如图像中的文字可以是该图像的内容概述,如果能够自动提取和识别图像中的文字,就可以让计算机自动理解图像内容。让计算机像人类一样识别图像中的文字,对于图像和视频的存储、分类、理解及检索等来说具有极其重要的意义,有着广泛的应用前景和商业价值。然而,当前商业或开源的OCR(Optical Character Recognition,光学字符识别)系统,例如Tesseract、OpenRTK、TypeReader、清华紫光OCR等,多用于简单背景中的文字识别,对复杂背景中的文字识别效果并不好。\n发明内容\n[0003] 有鉴于此,有必要提供一种文字识别方法及装置,可以提高复杂背景中文字识别的准确率。\n[0004] 一种文字识别方法,包括以下步骤:定位步骤:获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断步骤:判断该局部背景是否属于复杂背景;确定步骤:若该局部背景属于复杂背景,则确定该文字的颜色;构建步骤:结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别步骤:使用该掩模从文字区域中提取文字进行识别,并输出识别结果。\n[0005] 一种文字识别装置,包括:定位模块,用于获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;背景判断模块,用于判断该局部背景是否属于复杂背景;确定模块,用于若该局部背景属于复杂背景,则确定该文字的颜色;构建模块,用于结合该文字的颜色与该文字区域构建选区为该文字的掩模;及第一识别模块,用于使用该掩模从文字区域中提取文字进行识别,并输出识别结果。\n[0006] 相较于现有技术,本发明文字识别方法及装置,在图像中定位出文字区域后,若判断该文字区域中文字的背景为复杂背景,则根据文字的颜色和该文字区域构建选区为该文字的掩模,通过该掩模来提取该文字进行识别,可以提高复杂背景中文字识别的准确率。\n[0007] 为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。\n附图说明\n[0008] 图1为本发明第一实施例提供的文字识别方法的流程图。\n[0009] 图2至图5为图像的示例图。\n[0010] 图6为图3对应的二值图的示例图。\n[0011] 图7为判断局部背景是否属于复杂背景的部分流程图。\n[0012] 图8为对图6所示的二值图进行膨胀处理后的示意图。\n[0013] 图9为各颜色通道的颜色直方图。\n[0014] 图10为判断局部背景是否属于复杂背景的部分流程图。\n[0015] 图11为图1中步骤S3的详细流程图。\n[0016] 图12为图1中步骤S4的详细流程图。\n[0017] 图13为对应于图2中文字区域的掩模。\n[0018] 图14为对掩模进行版面分析的结果示例图。\n[0019] 图15为对图14进行单字切分操作的结果示例图。\n[0020] 图16为本发明第二实施例提供的文字识别方法的流程图。\n[0021] 图17为本发明第三实施例提供的文字识别装置的框图。\n[0022] 图18为本发明第四实施例提供的文字识别装置的框图。\n具体实施方式\n[0023] 为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。\n[0024] 第一实施例\n[0025] 参阅图1所示,本发明第一实施例提供一种文字识别方法,该文字识别方法包括以下步骤:\n[0026] 步骤S1,获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;\n[0027] 步骤S2,判断该局部背景是否属于复杂背景;\n[0028] 步骤S3,若该局部背景属于复杂背景,则确定该文字的颜色;\n[0029] 步骤S4,结合该文字的颜色与该文字区域构建选区为该文字的掩模;及[0030] 步骤S5,使用该掩模从文字区域中提取文字进行识别,并输出识别结果。\n[0031] 按照上述的文字识别方法,在图像中定位出文字区域后,若判断该文字区域中文字的背景为复杂背景,则根据文字的颜色和该文字区域构建选区为该文字的掩模,通过该掩模来提取该文字进行识别,可以提高复杂背景中文字识别的准确率。\n[0032] 在一些实例中,上述方法的各步骤的实现细节如下:\n[0033] 步骤S1所述的图像例如图2、图3、图4或图5所示。该图像中包括文字。该图像可以通过数码相机、摄像头、扫描仪等图像获取设备采集得到。其中,该图像中文字以外的部分被称为整体背景,即该图像由该文字及整体背景组成。\n[0034] 在本实施例中,可以采用例如基于边缘分析、基于纹理分析、基于区域分析或基于学习等检测与定位方法,根据文字的颜色聚合性及笔画连通性来检测图像中的文字,定位该图像中的文字区域,并获取该文字区域在图像中的位置坐标、文字区域中文字的笔画信息和倾斜角度等信息。该文字区域中文字以外的部分被称为局部背景。\n[0035] 值得注意的是,通常为了快速检测图像中存在的文字,通过上述的检测与定位方法获得的文字的笔画信息并不完全准确,有可能会将该局部背景中与该文字相连的某些部分也误判为文字的笔画,例如图5中将人物的头发与“发”字相连的一部分也误判为“发”字的笔画。\n[0036] 步骤S2中,先根据所述文字区域的位置坐标及该文字的笔画信息生成二值图,该二值图的各像素与该图像的各像素的位置一一对应。该二值图包括灰度值为第一预设值,例如255的第一像素组,以及灰度值为第二预设值,例如0的第二像素组。该第一像素组用于反映图像中的该文字,该第二像素组用于反映该图像的整体背景。\n[0037] 如图6所示,为根据在图3中定位文字区域并获取的文字的笔画信息生成的二值图,该二值图的第一像素组呈白色,第二像素组呈黑色,使该二值图呈现明显的黑白效果。\n白色部分根据该文字的笔画信息形成,用于反映该图像中的文字。该二值图白色以外的部分为黑色,用于反映该图像的整体背景。由于所获取的文字的笔画信息并不完全准确,因此该二值图的第一像素组所反映的文字与该图像中的文字并不完全一致,该第一像素组只能大致反映该图像中的文字,第二像素组也只能大致反映该图像的整体背景。\n[0038] 在一个实例中,参阅图7所示,判断该局部背景是否属于复杂背景的方法可以包括以下步骤:\n[0039] 步骤S2.1,根据该二值图确定该文字区域中所述局部背景对应的像素。具体而言,可以根据该文字区域的位置坐标在该二值图中找到与该文字区域对应的特定区域,然后根据该特定区域与该文字区域中像素位置一一对应的关系,在该文字区域中找出与该特定区域中灰度值为第二预设值的像素对应的像素,即该文字区域中局部背景对应的像素。此外,在步骤S2.1之前,可以先使用例如形态学的方法对该二值图进行膨胀处理,从而使该二值图的第一像素组尽可能包裹文字边缘由于压缩造成的噪声,避免该噪声对后续局部背景或整体背景的像素统计造成影响。对图6所示的二值图进行膨胀处理后的效果如图8所示,其中的白色字体部分有加粗的效果。\n[0040] 步骤S2.2,对该局部背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该局部背景的主颜色。具体而言,在一个实例中,以256维的RGB颜色模型为例,可以依次统计局部背景对应的像素中,R(红色)通道的值从0至255范围内每个值对应的像素个数,G(绿色)通道的值从0至255范围内每个值对应的像素个数,以及B(蓝色)通道的值从0至255范围内每个值对应的像素个数,从而生成各颜色通道的颜色直方图,如图9所示。\n[0041] 然后,将每个颜色通道的颜色直方图中对应像素个数最多的颜色通道的值提取出来,所提取的每个颜色通道中对应像素个数最多的值组合即为所述主颜色。例如R通道的颜色直方图中对应像素个数最多的R值为20,G通道的颜色直方图中对应像素个数最多的G值为30,B通道的颜色直方图中对应像素个数最多的B值为50,则可以将RGB值为(20,30,50)的颜色作为所述主颜色。此外,也可以设定一个范围d,将在所提取的颜色通道的值的基础上上下浮动该范围d的值都组合成所述主颜色。延续上一个例子,可以将在(20-d,20+d)范围内的R值、在(30-d,30+d)范围内的G值和在(50-d,50+d)范围内的B值组合成的颜色都作为所述主颜色。在另一个实例中,也可以将对应的像素个数占局部背景的像素总数的比例达到预设阈值,例如5%的颜色通道的值组合成的颜色作为所述主颜色。该局部背景的主颜色可能包括不止一种。\n[0042] 步骤S2.3,统计该局部背景的主颜色对应的像素总数,并计算该局部背景的主颜色对应的像素总数占该局部背景的像素总数的比例,得到第一比例值。\n[0043] 步骤S2.4,判断该第一比例值是否小于第一阈值,若是,则判定该局部背景属于复杂背景。该第一阈值为根据大量样本得出的经验值。\n[0044] 此外,若该第一比例值不小于该第一阈值,也不能简单地判定该局部背景不属于复杂背景。在本实施例中,可以结合所述整体背景更准确地判断该局部背景是否属于复杂背景,以提高后续文字识别的准确性。因此,参阅图10所示,判断该局部背景是否属于复杂背景的方法还可以包括以下步骤:\n[0045] 步骤S2.5,若该第一比例值不小于该第一阈值,则判断该第一比例值是否大于第二阈值。\n[0046] 步骤S2.6,若该第一比例值不大于该第二阈值,则根据该二值图确定该图像的所述整体背景对应的像素。具体而言,根据该二值图与该图像的像素位置一一对应的关系,在该图像中找出与该二值图中灰度值为第二预设值的像素对应的像素,即该图像的整体背景对应的像素。同样地,步骤S2.6可以使用经膨胀处理后的该二值图来确定该图像的整体背景对应的像素。\n[0047] 步骤S2.7,对该整体背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该整体背景的主颜色。该整体背景的主颜色的确定方式与步骤S2.2所述的局部背景的主颜色的确定方式类似,此处不再赘述。\n[0048] 步骤S2.8,统计该整体背景的主颜色对应的像素总数,并计算该整体背景的主颜色对应的像素总数占该整体背景的像素总数的比例,得到第二比例值。\n[0049] 步骤S2.9,判断该第二比例值是否小于第三阈值,若是,则判定该局部背景属于复杂背景。其中,该第二阈值和第三阈值也是根据大量样本得到的经验值。\n[0050] 如图11所示,步骤S3具体包括以下步骤:\n[0051] 步骤S3.1,根据该二值图确定该文字对应的像素。同样地,根据该文字区域的位置坐标在该二值图中找到与该文字区域对应的特定区域,然后根据该特定区域与该文字区域中像素一一对应的关系,在该文字区域中找出与该特定区域中灰度值为第一预设值的像素对应的像素,即该文字区域中文字对应的像素。\n[0052] 步骤S3.2,统计该文字对应的各像素的颜色,对所统计的各像素的颜色进行聚类,得到该文字的颜色。具体而言,可以将所统计的各像素的颜色使用聚类算法按照预设种类数聚类,例如聚为5类。然后将该预设种类数的颜色中,颜色距离小于预设数值例如20的颜色合并,得到至少一种待定颜色。若该待定颜色有多种,则还可以进一步从该多种待定颜色排除不符合该文字的待定颜色,最后剩下的待定颜色即被认为是该文字的颜色。该文字的颜色可以包括一种或多种,例如在一行文字中,为了使其中几个文字更加醒目,通常会将这几个文字与其它文字设置成不同的颜色。\n[0053] 具体而言,由于现有的文字检测与定位方法还是达到了一定的精确度,因此被误判为文字笔画的像素通常较少,则从待定颜色中排除不符合文字的颜色的方法例如可以是统计所述文字对应的像素中各种待定颜色对应的像素的个数,并将对应像素的个数小于某一预设值的待定颜色排除。其次,由于局部背景中被误判为文字笔画的像素形成的纹理特征、梯度特征通常与文字不同,例如图5中人物的头发与文字的纹理特征和梯度特征明显不同,因此,也可以根据待定颜色对应的像素形成的纹理、梯度特征等信息排除不符合文字的待定颜色。此外,也可以根据文字的颜色聚合性来排除不符合文字的待定颜色。\n[0054] 如图12所示,步骤S4具体包括以下步骤:\n[0055] 步骤S4.1,分别计算该文字区域的各像素的颜色与该文字的颜色的距离,以该距离作为对应像素的颜色值,生成颜色距离图。例如,该文字的颜色以RGB格式表达为(200,\n200,200),将该文字区域的某一个指定像素的RGB值与该文字的RGB值相减,得到该指定像素的颜色与该文字的颜色的距离。然后,将一个像素位置与该文字区域一一对应的中间图中与该指定像素位置相同的对应像素的颜色值设置为所得到的该距离。待将该中间图每个像素的颜色值都设置为该文字区域中相同位置像素的颜色与该文字的颜色的距离后,即得到该颜色距离图。若步骤S3确定的该文字的颜色包括一种以上,则可以先判断该指定像素与哪一种文字的颜色对应的像素空间距离最近,然后计算该指定像素的颜色与该最近的像素对应的文字的颜色的距离。\n[0056] 步骤S4.2,对该颜色距离图进行二值化处理,得到所述掩模。例如,图2中文字区域的掩模如图13所示。在本实施例中,对该颜色距离图进行二值化处理的方法为局部自适应二值化。步骤S4.2还可以对该掩模进行去除点噪声处理。此外,若步骤S1获取的文字的倾斜角度不为0,则还需要根据所获取的倾斜角度对该文字区域及该掩模进行倾斜校正。\n[0057] 步骤S5中,在使用该掩模从文字区域中提取文字之前,还将先对该掩模进行版面分析及单字切分操作。通过版面分析可将掩模中的文字切分成若干文字行或文字列,通过单字切分操作则将这些文字行或文字列最终切分为单个文字,从而使用该掩模可以从该文字区域中将每一个文字分别提取出来。\n[0058] 具体而言,需要先判断文字区域中的文字是横向排列还是纵向排列。例如,可以对掩模逐行逐列扫描像素,得到掩模中文字的行间距和列间距,并计算文字行的高度方差及文字列的宽度方差。该文字行的高度方差用于反映文字行高度的一致性,而该文字列的宽度方差用于反映文字列宽度的一致性。然后综合该文字间距和文字行的高度或文字列的宽度的一致性等因素来判断该文字是横向排列还是纵向排列。例如,若行间距大于列间距,并且文字行高度一致,则判定文字区域中文字是横向排列。若列间距大于行间距,并且文字列宽度一致,则判定文字区域中文字是纵向排列。\n[0059] 然后,对掩模进行若干次横向切分和纵向切分。以文字区域中的文字横向排列为例,首先,对该掩模进行横向切分,将该掩模中的文字分为若干文字行。所述横向切分的具体方法为逐行扫描掩模的像素,以扫描得到的不属于文字的像素行作为切分线将上下行文字区分开来。然后根据切分后的文字行的宽高比判断是否需要再对上一次横向切分后的文字进行纵向切分,从而将上一次横向切分后的文字行中单行文字与多行文字切分开来。所述纵向切分的具体方法为逐列扫描掩模的像素,以扫描得到的不属于文字的像素列作为切分线将左右列文字区分开来。再根据切分后文字行的宽高比将上一次纵向切分后得到的多行文字横向切分为单行,依此类推。最后进行一次纵向切分,将所有单行文字最终切分为单个文字。\n[0060] 反之,若文字区域中的文字纵向排列,则先对该掩模进行纵向切分,将该掩模中的文字分为若干文字列,再根据切分后的文字列的宽高比判断是否需要再对上一次纵向切分后的文字进行横向切分,从而将上一次纵向切分后的文字列中单列文字与多列文字切分开来。再根据切分后文字行的宽高比将上一次横向切分后得到的多列文字切分为单列,依此类推。最后进行一次横向切分,将所有单列文字最终切分为单个文字。\n[0061] 其次,对掩模的切分结果进行修正,例如包括将错误切分后的文字行或列合并,或对英文首字母与第二字母的错误切分进行修正,最后得到可以从该文字区域中将每一个文字分别提取出来的掩模。例如图14所示,为对掩模进行版面分析的结果,图15为对图14进行单字切分操作后的结果。\n[0062] 使用经过版面分析及单字切分操作后的该掩模从文字区域中提取文字之前,还可以对该掩模进行膨胀处理,然后使用该掩模保留文字边缘梯度,去除局部背景梯度的干扰,从而从该文字区域中将每一个文字提取出来,并对所提取文字进行归一化处理,即将所有文字缩放到统一大小,最后提取每个文字的特征进行识别。\n[0063] 值得注意的是,若步骤S3确定的该文字的颜色包括一种以上,例如包括两种,则也可以针对第一种文字的颜色和第二种文字的颜色分别执行步骤S4.1和步骤S4.2,得到与该第一种文字的颜色对应的第一掩模,和与该第二种文字的颜色对应的第二掩模。然后对该第一掩模和第二掩模分别执行后续步骤S5的版面分析及单字切分操作。结合第一掩模和第二掩模分别从文字区域中提取每一个文字进行识别并根据彼此修正,可以得到更加准确的识别结果。\n[0064] 按照本实施例的文字识别方法,可以提高复杂背景中文字识别的准确率。在应用方面,本实施例的文字识别方法还可以与现有的文本过滤技术相结合,从图像的复杂背景中准确地识别文字,并判断该文字是否带有敏感词汇,例如图5所示的“发财地址”,从而判断该图像是否为恶意图像,提高用户安全性。\n[0065] 第二实施例\n[0066] 根据第一实施例提供的文字识别方法,当文字区域的局部背景为复杂背景时,可以根据文字的颜色及文字区域构建掩模来准确地提取文字进行识别,而构建该掩模的过程复杂,会在一定程度上降低文字提取和识别的效率。然而若文字区域的局部背景不为复杂背景,则没有必要通过上述构建掩模的过程也能够准确地提取并识别文字。因此,在对图像中文字的提取和识别过程中,为了在准确率及效率之间取得较佳的平衡,参阅图16所示,为本发明第二实施例提供的文字识别方法,其相较于第一实施例的文字识别方法,进一步包括以下步骤:\n[0067] 步骤S6,若该局部背景不属于复杂背景,则对该文字区域进行二值化处理。由于该局部背景不属于复杂背景,该局部背景不易与文字混淆,如图4所示。因此,可以使用自适应阈值对该文字区域进行二值化处理,使文字区域中局部背景与文字明显区分开来。若步骤S1中获取的文字区域中文字的倾斜角度不为0,则还需要根据该倾斜角度对该二值化处理后的文字区域进行倾斜校正。\n[0068] 步骤S7,对二值化处理后的该文字区域进行版面分析及单字切分操作,将文字区域中每个文字提取出来进行识别,并输出识别结果。在识别之前还对所提取出来的文字进行归一化处理,然后提取文字特征进行识别。对该文字区域进行版面分析及单字切分操作方法与上述步骤S5中所述类似,在此不再赘述。\n[0069] 综上所述,本实施例的文字识别方法,先对文字区域的局部背景是否属于复杂背景进行判断,然后针对该局部背景属于复杂背景和不属于复杂背景的两种情况分别以不同的方法进行文字的提取及识别,从而可以在对图像中文字的提取及识别的过程中,在准确率及效率之间取得较佳的平衡。\n[0070] 第三实施例\n[0071] 参阅图17所示,本发明第三实施例提供一种文字识别装置100,其包括定位模块\n101、背景判断模块102、确定模块103、构建模块104和第一识别模块105。可以理解,上述的各模块是指计算机程序或者程序段,用于执行某一项或多项特定的功能。此外,上述各模块的区分并不代表实际的程序代码也必须是分开的。\n[0072] 定位模块101,用于获取图像,定位该图像的文字区域,该文字区域中文字以外的部分为局部背景。定位模块101还获取该文字区域的位置坐标、该文字的笔画信息及倾斜角度。\n[0073] 背景判断模块102,用于判断该局部背景是否属于复杂背景。具体而言,背景判断模块102先根据该文字区域的位置坐标及该文字的笔画信息生成二值图,该二值图包括灰度值为第一预设值的第一像素组,以及灰度值为第二预设值的第二像素组,该第一像素组反映图像中的该文字,第二像素组反映该图像中文字以外的部分,即整体背景。背景判断模块102还可以对所生成的该二值图进行膨胀处理。\n[0074] 然后,背景判断模块102根据该二值图确定该文字区域中所述局部背景对应的像素,对该局部背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该局部背景的主颜色,统计该局部背景的主颜色对应的像素总数,并计算该局部背景的主颜色对应的像素总数占该局部背景的像素总数的比例,得到第一比例值。若该第一比例值小于第一阈值,则背景判断模块102判定该局部背景属于复杂背景。\n[0075] 若该第一比例值不小于该第一阈值,则背景判断模块102进一步判断该第一比例值是否大于第二阈值,若否,则根据该二值图确定该图像的所述整体背景对应的像素,并对该整体背景对应的像素进行各颜色通道的颜色直方图统计,从而确定该整体背景的主颜色。最后,背景判断模块102统计该整体背景的主颜色对应的像素总数,并计算该整体背景的主颜色对应的像素总数占该整体背景的像素总数的比例,得到第二比例值。若该第二比例值小于第三阈值,则背景判断模块102判定该局部背景属于复杂背景。\n[0076] 确定模块103,用于若该局部背景属于复杂背景,则确定该文字的颜色。具体而言,确定模块103先根据该二值图确定该文字对应的像素,然后统计该文字对应的各像素的颜色,对所统计的各像素的颜色进行聚类,得到该文字的颜色。\n[0077] 构建模块104,用于结合该文字的颜色与该文字区域构建选区为该文字的掩模。构建模块104分别计算该文字区域的各像素的颜色与该文字的颜色的距离,以该距离作为对应像素的颜色值,生成颜色距离图,然后对该颜色距离图进行二值化处理,得到所述掩模。\n在一个实例中,构建模块104可以对该颜色距离图进行局部自适应二值化处理。然后,构建模块104还可以对该掩模进行去除点噪声处理,并根据该文字的倾斜角度对该文字区域及该掩模进行倾斜校正。\n[0078] 第一识别模块105,用于使用该掩模从文字区域中提取文字进行识别,并输出识别结果。在提取文字进行识别之前,第一识别模块105将先对该掩模进行版面分析及单字切分操作,从而使用该掩模从文字区域中将每一个文字提取出来进行识别。为了去除噪声影响,第一识别模块105还可以对该掩模进行膨胀处理。第一识别模块105将文字提取出来后,将对所提取文字进行归一化处理后再进行识别。\n[0079] 对于以上各模块的具体工作过程,可进一步参考本发明第一实施例提供的文字识别方法,在此不再重复。\n[0080] 综上所述,本实施例的文字识别装置100,在图像中定位出文字区域后,若判断该文字区域中文字的背景为复杂背景,则根据文字的颜色和该文字区域构建选区为该文字的掩模,通过该掩模来提取该文字进行识别,可以提高复杂背景中文字识别的准确率。\n[0081] 第四实施例\n[0082] 参阅图18所示,本发明第四实施例提供一种文字识别装置200,其相较于第三实施例的文字识别装置100,进一步包括:\n[0083] 处理模块201,用于若该局部背景不属于复杂背景,则对该文字区域进行二值化处理。处理模块201还根据所述文字的倾斜角度对该文字区域进行倾斜校正。\n[0084] 第二识别模块202,用于对二值化处理后的该文字区域进行版面分析及单字切分操作,将文字区域中每个文字提取出来进行识别,并输出识别结果。\n[0085] 对于以上各模块的具体工作过程,可进一步参考本发明第二实施例提供的文字识别方法,在此不再重复。\n[0086] 综上所述,本实施例的文字识别装置200,先对文字区域的局部背景是否属于复杂背景进行判断,然后针对该局部背景属于复杂背景和不属于复杂背景的两种情况分别以不同的方法进行文字的提取及识别,从而可以在对图像中文字的提取及识别的过程中,在准确率及效率之间取得较佳的平衡。\n[0087] 此外,本发明实施例还提供一种计算机可读存储介质,其内存储有计算机可执行指令,上述的计算机可读存储介质例如为非易失性存储器例如光盘、硬盘、或者闪存。上述的计算机可执行指令用于让计算机或者类似的运算装置完成上述的文字识别方法中的各种操作。\n[0088] 以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
法律信息
- 2019-03-08
- 2016-07-06
实质审查的生效
IPC(主分类): G06K 9/20
专利申请号: 201310297948.3
申请日: 2013.07.16
- 2015-01-21
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2008-02-13
|
2007-09-21
| | |
2
| |
2009-12-09
|
2009-06-11
| | |
3
| |
2013-03-13
|
2012-12-20
| | |
4
| |
2013-02-06
|
2012-08-21
| | |
5
| |
2006-12-13
|
2005-06-06
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |