著录项信息
专利名称 | 一种图片文字分割的方法 |
申请号 | CN200710122153.3 | 申请日期 | 2007-09-21 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2008-02-13 | 公开/公告号 | CN101122953 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/36 | IPC分类号 | G;0;6;K;9;/;3;6;;;G;0;6;K;9;/;4;0;;;G;0;6;K;9;/;4;6查看分类表>
|
申请人 | 北京大学 | 申请人地址 | 北京市海淀区颐和园路5号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京大学 | 当前权利人 | 北京大学 |
发明人 | 易剑;彭宇新;肖建国 |
代理机构 | 北京君尚知识产权代理事务所(普通合伙) | 代理人 | 余功勋 |
摘要
本发明提供了一种图片文字分割的方法,用于把图片文字检测的结果由文字区域图片转换成可以被OCR软件识别的二值图片,包括以下步骤:(一)对文字区域图片进行颜色分量选择;在所选择的颜色分量上,文字最为清晰;(二)在步骤(一)选取的颜色分量上,对文字区域图片进行二值化;(三)对步骤(二)得到的二值图片进行去噪。本发明能自适应地选取有利于二值化的颜色分量,从而取得更好的二值化效果;同时利用基于颜色的聚类方法去除噪声,能够得到更为清晰,噪声较少的二值文字图片,从而得到更好的图片文字识别结果。
1.一种图片文字分割的方法,用于把图片文字检测的结果由文字区域图片转换成可以被OCR软件识别的二值图片,其特征在于,包括以下步骤:
(1)对文字区域图片进行颜色分量选择,在所选择的颜色分量上,文字最为清晰;
(2)在步骤(1)选取的颜色分量上,对文字区域图片进行二值化,得到二值图片;
(3)采用基于颜色的聚类方法,和连通分量分析、灰度一致性分析相结合,对步骤(2)得到的二值图片进行去噪。
2.如权利要求1所述的图片文字分割的方法,其特征在于,所述步骤(1)与步骤(2)之间增加如下步骤:对图片中文字灰度值的深浅进行判断,如果是浅色的文字,则反转文字区域图片的灰度值,否则灰度值不变,判断文字灰度值深浅的方法为:用Otsu方法把文字区域图片二值化,然后找出白色和黑色的4连通分量,去除外接矩形宽高都极小的连通分量,最后统计出白色连通分量个数Comwhite和黑色连通分量个数Comblack,如果Comwhite>Comblack,则判断文字是浅色的,反之是深色的。
3.如权利要求1所述的图片文字分割的方法,其特征在于,所述步骤(1)中对文字区域图片进行颜色分量选择的具体方法为:
采用公式一分别求得文字区域图片在YUV各个颜色分量上的对比度CY、CU和CV,Cα为它们中的最大值,α∈{Y,U,V},选择在YUV颜色空间中的α分量;CY、GU和CV的值由公式二求得,分别为边缘强度图EY、EU和EV的中央部分的边缘强度累加值,表示文字区域图片在YUV颜色分量上的对比度,EY、EU和EV是文字区域图片分别在YUV各个颜色分量上的边缘强度图,w和h分别为文字区域图片的宽和高,
公式一:Cα=max(CY,CU,CV),α∈{Y,U,V},
公式二:
。
4.如权利要求1所述的图片文字分割的方法,其特征在于,所述步骤(2)中对文字区域图片进行二值化时,图片被二值化成前景和背景,前景用黑色表示,背景用白色表示,前景中包含了文字的笔画和噪声;二值化的具体方法为:对于图片中的每一个像素x,求得一个局部阈值Tr(x),如果这个像素的灰度值小于Tr(x)的话,这个像素被二值化成前景,否则是背景;所述局部阈值Tr(x)采用公式三计算得到,Tr(x)的值从一个以像素x为中心,大小为r(x)的窗口Wr中统计得到,μr(x)是Wr中像素的平均灰度值,σr(x)是Wr中像素灰度值的标准方差,k1是一个常数;窗口大小r(x)由公式四计算得到,公式四中,Tσ是一个常数,r(x)为像素灰度值的标准方差大于Tσ的最小窗口的大小,
公式三:Tr(x)=μr(x)+k1×σr(x),
公式四:r(x)=min(r,σr(x)>Tσ)。
5.如权利要求1所述的图片文字分割的方法,其特征在于,所述灰度一致性分析方法具体为:对于连通分量中的像素,首先恢复它在步骤(1)中所选择的颜色分量上相应位置的灰度值,然后计算所有连通分量中像素灰度值的方差st和均值m,并检查每个连通分量P,如果连通分量P中满足公式五的像素数目大于这个连通分量中所有像素数目的一定比例,那么P被当作是噪声而除去;
公式五: k2是一个常数,op是连通分量P中像素的
灰度值。
6.如权利要求1所述的图片文字分割的方法,其特征在于,所述基于颜色的聚类方法具体为:首先将连通分量中的像素恢复其在原图中的颜色,得到彩色的连通分量集合C;然后用基于颜色的聚类方法把连通分量集合C分为两类,一类是文字的笔画,另一类是噪声,从而去除噪声。
一种图片文字分割的方法\n技术领域\n[0001] 本发明属于图像处理和检索技术领域,具体涉及一种图片文字分割的方法。\n背景技术\n[0002] 随着互联网技术和多媒体技术的快速发展,互联网上的图片内容呈现爆炸性增长趋势,如何在这海量的图片内容中快速检索到想要的图片,成为了一个急需解决的关键问题。现有的方法主要基于图片对应网页中的文字描述信息,而没有深入到图片内容的分析中去。这种方法存在以下缺点:(1)如何在网页中找到能够准确描述图片内容的文字信息本身就是一件很困难的事情;(2)大量的图片没有对应的网页信息。另一方面,大量的图片含有文字信息,这些文字信息一般能准确描述图片的内容,如果能识别这些文字,用这些文字信息对图片进行索引和检索,必将大大推动互联网图片搜索技术的发展。因此,图片文字检测和识别技术具有十分重要的研究和应用价值。\n[0003] 要对图片中的文字进行识别,先得把图片中的文字从背景中分割出来,转换成可供OCR软件识别的二值图片。图片文字分割方法主要包括两个部分:二值化和去噪。现有方法主要采用了基于阈值的二值化方法,这种方法选择在彩色图片的固定颜色分量上进行二值化操作,但并不合理,因为对于某些颜色的文字图片来说,其它的颜色分量更适合于二值化,如果能够自适应地选择对二值化较好的颜色分量,将会有利于二值图片的生成;另外,现有的噪声去除方法主要利用了连通分量的几何特征和灰度值特征,然而,当噪声的这些特征和文字笔画都相似的时候,这种方法就失效了。另一方面,图片中含有丰富的彩色信息,文字笔画和噪声的颜色一般具有差异,通过对连通分量颜色特征的分析,可以有效地去除噪声。\n[0004] 2005年在IEEE Transactions on Circuits and Systems for VideoTechnology上发表的文献“A comprehens ive method for multilingualvideo text detection,localization,and extraction”(作者是Michael R.Lyu,Jiqiang Song,Min Cai,页码是\n243-254),提出了一种图片文字分割的方法。\n[0005] 该文献首先利用边缘检测算子求得视频图像的边缘图,然后用分析边缘投影图的波峰和波谷的方法来找到可能的文字区域。基于文字区域检测的结果,在固定的颜色分量上对文字区域图片进行二值化,并且利用连通分量的几何特征去除噪声。该方法对于背景复杂、文字对比度较弱的文字区域,分割得到的二值图片效果较差,含有较多噪声,因此适应面并不广,文字分割的效果还需要提高。\n发明内容\n[0006] 针对现有技术的不足,本发明提出了一种图片文字分割的方法,用于把图片文字检测的结果由文字区域图片转换为可以供OCR软件识别的二值图片。该方法充分利用了图片中的彩色信息进行二值化和噪声去除,相比现有方法,可以获得更为清晰,噪声更少的二值文字图片,从而有利于用OCR软件进行识别。\n[0007] 为达到以上目的,本发明的技术方案如下:\n[0008] 一种图片文字分割的方法,用于把图片文字检测的结果由文字区域图片转换成可以被OCR软件识别的二值图片,包括以下步骤:\n[0009] (1)对文字区域图片进行颜色分量选择;在所选择的颜色分量上,文字最为清晰;\n[0010] (2)在步骤(1)选取的颜色分量上,对文字区域图片进行二值化,得到二值图片;\n[0011] (3)对步骤(2)得到的二值图片进行去噪。\n[0012] 进一步,上述的一种图片文字分割的方法,所述步骤(1)与步骤(2)之间增加如下步骤:对图片中文字灰度值的深浅进行判断,如果是浅色的文字,则反转文字区域图片的灰度值,否则灰度值不变。这样保证了在进行二值化之前,图片中的文字总是深色的,灰度值较小,有利于对图片进行统一的处理。判断文字灰度值深浅的方法为:用Otsu方法把文字区域图片二值化,然后找出白色和黑色的4连通分量,去除外接矩形宽高都极小的连通分量,最后统计出白色连通分量个数Comwhite和黑色连通分量个数Comblack,如果Comwhite>Comblack,则判断文字是浅色的,反之是深色的。\n[0013] 进一步,上述的一种图片文字分割的方法,所述步骤(1)中对文字区域图片进行颜色分量选择的具体方法是:如公式一所示,分别求得文字区域图片在YUV各个颜色分量上的对比度CY、CU和CV,Cα为它们中的最大值,α∈{Y,U,V},则选择在YUV颜色空间中的α分量上进行二值化。CY、CU,和CV的值由公式二求得,分别为边缘强度图EY,EU和EV的中央部分的边缘强度累加值,CY、CU和CV代表了文字区域图片在YUV各个颜色分量上的对比度;EY、EU和EV是文字区域图片分别在YUV各个颜色分量上的边缘强度图,w和h分别为文字区域图片的宽和高。\n[0014] 公式一:Cα=max(CY,CU,CV),α∈{Y,U,V}\n[0015] 公式二:\n[0016] \n[0017] 当然,关于颜色分量的选择,还可以有其他的方法。譬如,2005年发表在I nternational Conference on Document Analysis andRecognition 上 的 文 献“Segmentation and Recognition of Charactersin Scene Images Using Selective Binarization in Color Space andGAT Correlation”(作者是Minoru Yokobayashi和Toru Wakahara)中公开了一种使得所选择的颜色分量上文字最为清晰的直方图方法,这种方法首先求得图片在各个颜色分量上的直方图,然后比较各个直方图中灰度值的分布情况,选择在直方图中灰度值分布最广的颜色分量上进行二值化。\n[0018] 进一步,上述的一种图片文字分割的方法,所述步骤(2)中,文字区域图片被二值化成前景和背景,前景用黑色表示,背景用白色表示,前景中包含了文字的笔画和噪声。二值化的具体方法为:对于图片中的每一个像素x,求得一个局部阈值Tr(x),如果这个像素的灰度值小于Tr(x)的话,这个像素被二值化成前景,否则是背景。对于每个像素x,我们用下面的方法计算局部阈值Tr(x):如公式三所示,Tr(x)的值从一个以像素x为中心,大小为r(x)的窗口Wr中统计得到,μr(x)是Wr中像素的平均灰度值,σr(x)是Wr中像素灰度值的标准方差,k1是一个常数。窗口大小r(x)由公式四计算得到,公式四中,Tσ是一个常数,r(x)为像素灰度值的标准方差大于Tσ的最小窗口的大小。\n[0019] 公式三:Tr(x)=μr(x)+k1×σr(x)\n[0020] 公式四:r(x)=min(r,σr(x)>Tσ)\n[0021] 进一步,上述的一种图片文字分割的方法,所述步骤(3)中处理的对象是步骤(2)中得到的二值图片。二值图片中的黑色像素表示前景,白色像素表示背景,黑色像素组成的连通分量包括了文字的笔画和噪声。在本步骤中对二值图片进行处理,采用连通分量分析方法,灰度一致性分析方法和基于颜色的聚类方法中的一种或多种,去除二值图片中被认定为噪声的连通分量。\n[0022] 进一步,上述的一种图片文字分割的方法,所述步骤(3)中用连通分量分析来去除噪声的方法具体为,把满足下列条件之一的连通分量当作噪声去除掉:\n[0023] (1)同文字区域的边界相连;\n[0024] (2)连通分量所占的像素数目小于一个文字笔画所占的最少像素数目;\n[0025] (3)连通分量的宽高比大于文字笔画的最大宽高比,或者小于文字笔画的最小宽高比。\n[0026] 进一步,上述的一种图片文字分割的方法,所述步骤(3)中用灰度一致性分析来去除噪声的方法具体为:对于二值图片连通分量中的像素,首先恢复它在步骤(1)中所选择的颜色分量上相应位置的灰度值,然后计算所有连通分量中像素灰度值的方差st和均值m,并检查每个连通分量P,如果连通分量P中满足公式五的像素数目大于这个连通分量中所有像素数目的一定比例,那么P被当作是噪声而除去。\n[0027] 公式五:\n[0028] 公式五中,k2是一个常数,op是连通分量P中像素的灰度值。\n[0029] 进一步,上述的一种图片文字分割的方法,所述步骤(3)中用基于颜色的聚类来去除噪声的方法为:首先将连通分量中的像素恢复其在原图中的颜色,得到彩色的连通分量集合C;然后用基于颜色的聚类方法把连通分量集合C分为两类,一类是文字的笔画,另一类是噪声,从而去除噪声。\n[0030] 本发明的效果在于:与现有方法相比,本发明能够取得更高的图片文字识别率,从而充分发挥图片文字信息在互联网图像检索中的巨大作用。\n[0031] 本发明之所以具有上述发明效果,其原因在于:现有的方法主要选择在彩色图片的固定颜色分量上进行二值化,但这并不合理,因为对于某些颜色的文字图片来说,其它的颜色分量更适合于二值化,而本发明能自适应地选取有利于二值化的颜色分量,从而取得更好的二值化效果。另外,对于现有方法不易去除的,具有与文字笔画相似几何特征和灰度值特征的噪声,本发明充分利用了噪声与文字笔画的颜色差异,进一步采用基于颜色的聚类方法有效的去除了这些噪声。因此,本发明能够得到更为清晰,噪声较少的二值文字图片,从而得到更好的图片文字识别结果。\n附图说明\n[0032] 图1是本发明的流程示意图。\n具体实施方式\n[0033] 下面结合附图和具体实施例对本发明作进一步详细的描述。\n[0034] 本实施方式中,首先通过一种图片文字检测的方法对图片中的文字区域进行检测,然后采用本发明的图片文字分割方法把文字区域图片转换为二值文字图片。包括以下步骤:\n[0035] 1、图片文字检测,包括:\n[0036] (1)合并原图在多个颜色分量上的边缘图,得到累积边缘图。\n[0037] 累积边缘图由在图片的YUV各个分量上用改进的Sobel边缘检测算子检测到的多个边缘图合并得到。合并的方法如公式一所示,E是累积边缘图,EY、EU和EV分别是在图片的YUV各个分量上用改进的Sobel边缘检测算子检测到的边缘图,E(x,y)是累积边缘图中坐标为(x,y)的点的边缘强度值,它等于EY、EU和EV中相应位置像素点的边缘强度值累加和与255中较小的一个。\n[0038] 公式一:E(x,y)=min(EY(x,y)+EU(x,y)+EV(x,y),255)\n[0039] 在上述过程中,在图片的YUV分量上用改进的Sobel边缘检测算子检测到的边缘图,具体方法如公式二所示,Eα是在图片的α分量上用改进的Sobel边缘检测算子检测到的边缘图,α∈{Y,U,V},SH、SV、SLD和SRD分别表示水平、垂直、左对角线和右对角线这四个方向上的Sobel边缘强度值,max表示计算最大值,Ea(x,y)是在α分量上,坐标为(x,y)的点的边缘强度值,它的值等于这一点在α分量上水平、垂直、左对角线和右对角线四个方向的最大Sobel边缘强度值。\n[0040] 公式二:Eα(x,y)=max(|SH|,|Sv|,|SLD|,|SRD|)α∈{Y,U,V}[0041] (2)对于累积边缘图中强度值大于阈值T(0Comblack,则判断文字是浅色的,反之是深色的。\n[0054] (3)在(1)中选择的颜色分量上,把文字区域图片二值化为前景和背景,前景用黑色表示,背景用白色表示。\n[0055] 对于图片中的每一个像素x,求得一个局部阈值Tr(x),如果这个像素的灰度值小于Tr(x)的话,这个像素被二值化成前景,否则是背景。对于每个像素x,我们用下面的方法计算局部阈值Tr(x):如公式三所示,Tr(x)的值从一个以像素x为中心,大小为r(x)的窗口Wr中统计得到,μr(x)是Wr中像素的平均灰度值,σr(x)是Wr中像素灰度值的标准方差,k1是一个常数。窗口大小r(x)由公式四计算得到,公式四中,Tσ是一个常数,r(x)为像素灰度值的标准方差大于Tσ的最小窗口的大小。在本实施例中,k1的值取为-0.2,Tσ的值取为文字区域图片中所有像素灰度值的标准方差。\n[0056] 公式三=Tr(x)=μr(x)+k1×σr(x)\n[0057] 公式四:r(x)=min(r,σr(x)>Tσ)\n[0058] (4)对步骤(3)中得到的二值图片进行去噪。\n[0059] 去噪的具体方法主要包括三个部分:连通分量分析、灰度一致性分析和基于颜色的聚类。\n[0060] a.用连通分量分析去除噪声,把满足下列条件之一的连通分量当作噪声去除掉:\n[0061] (1)同文字区域的边界相连;\n[0062] (2)连通分量所占的像素数目小于一个文字笔画所占的最少像\n[0063] 素数目;\n[0064] (3)连通分量的宽高比大于文字笔画的最大宽高比,或者小于文字笔画的最小宽高比。\n[0065] b.用灰度一致性分析来去除噪声:对于二值图片连通分量中的像素,首先恢复它在步骤(1)中所选择的颜色分量上相应位置的灰度值,然后计算所有连通分量中像素灰度值的方差st和均值m,并检查每个连通分量户,如果连通分量户中满足公式五的像素数目大于这个连通分量中所有像素数目的一定比例,那么P被当作是噪声而除去。\n[0066] \n[0067] 公式五中,k2是一个常数,op是连通分量P中像素的灰度值。本具体实施例中,k2取为2,当P中满足公式五的像素数目多于总像素数目的2/3的时候,P被认为是一个噪声而除去。\n[0068] c.用基于颜色聚类的方法去除噪声:首先将连通分量中的像素恢复其在原图中的颜色,得到彩色的连通分量集合C;然后用基于颜色的聚类方法把连通分量集合C分为两类,一类是文字的笔画,另一类是噪声,从而去除噪声。在本实施例中,对于C中的每个连通分量P,我们首先计算P中所有像素的平均颜色值c(P),然后用基于连通分量平均颜色值的k-means聚类方法把C分为两类:所占像素较多的一类被认为是文字笔画而保留;所占像素较少的一类被认为是噪声而除去。\n[0069] 最后把处理后的文字区域二值化图片输入给OCR软件进行识别,以得到图片文字识别结果。\n[0070] 下面的实验结果表明,与现有方法相比,本发明可以取得更高的文字识别查全率和查准率,从而充分发挥图片文字信息在图像检索中的巨大作用。\n[0071] 本实施例中建立的数据库包含了1000张含有文字的Web图片,这些图片是从互联网上随机抓取下来的,大多含有复杂的背景,以及大小、颜色、分辨率和对比度均不相同的文字,能够反映互联网上文字图片的真实情况,有助于证明本发明方法对各种情况的适应性以及最终结果的有效性。经过人工统计,这1000张图片中含有1621个文字区域,1621个文字区域中包含了10594个文字。\n[0072] 在本实施例中,上述1621个人工标注的文字区域被送给图片文字分割模块进行处理,得到二值图片,然后用同一个OCR软件对二值图片进行识别得到文字识别结果。这样,由OCR软件的识别结果可以对图片文字分割的方法作出评价。为了证明本发明在图片文字分割方面的有效性,我们测试了以下3种方法作为实验对比:\n[0073] I.本具体实施例;\n[0074] II. 本具体实施例,但不包括用基于颜色的聚类方法进行去噪;\n[0075] III.现有方法:2005年在IEEE Transactions on Circuits andSystems for Video Technology上发表的文献“A comprehensive methodfor multilingual video text detection,localization ,andextraction”(作者是Michael R.Lyu,Jiqiang Song,Min Cai,页码是243-254),该方法在固定的颜色分量上对文字区域图片进行二值化,并且利用连通分量的几何特征去除噪声。\n[0076] 买验采用了两个评价指标,即文字识别查全率和文字识别查准率,两个指标都是越高越好:\n[0077] 文手识别查全率=正确识别的文字数目/总文字数目\n[0078] 文手识别查准率=正确识别的文字数目/识别的文字数目\n[0079] 表1实验结果对比\n[0080] \n[0081] 从表1中可以看出,本发明的方法I和II在查全率和查准率上都比现有方法II工要高,主要原因包括:本发明自适应的选择了比较适合于二值化的颜色分量,并且在这个颜色分量上对文字区域图片进行二值化,相比现有方法在固定颜色分量上进行二值化,本发明的方法能够取得更好的二值化结果;本发明的噪声去除方法能够更为有效的去除二值图片中的噪声,从而有利于获取更好的文字识别结果。对比本发明的方法I和II,方法I比方法II取得了更好的文字识别结果,这充分说明了本发明提出的用基于颜色聚类的方法去除噪声的有效性。\n[0082] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
法律信息
- 2014-11-12
未缴年费专利权终止
IPC(主分类): G06K 9/36
专利号: ZL 200710122153.3
申请日: 2007.09.21
授权公告日: 2010.11.17
- 2010-11-17
- 2008-04-09
- 2008-02-13
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2006-12-13
|
2005-06-06
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |