著录项信息
专利名称 | 基于游程邻接图的复杂背景彩色图像中字符提取方法 |
申请号 | CN200410062261.2 | 申请日期 | 2004-07-02 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2005-03-02 | 公开/公告号 | CN1588431 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/80 | IPC分类号 | G;0;6;K;9;/;8;0;;;G;0;6;K;9;/;0;0查看分类表>
|
申请人 | 清华大学 | 申请人地址 | 北京市-82信箱
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 清华大学 | 当前权利人 | 清华大学 |
发明人 | 刘长松;丁晓青;陈又新;彭良瑞;方驰 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
基于游程邻接图的复杂背景彩色图像中字符提取方法,属于彩色图像文字识别预处理中的文字字符提取领域。在得到数字彩色图像之后,首先使用CRAG(colorrun-lengthadjacencygraph)区域生长算法得到图像的所有彩色连通域,再通过对这些连通域的颜色平均值进行颜色聚类,得到若干个颜色中心,以此颜色中心形成不同的颜色层面,然后将符合连通域判别规则的彩色连通域分到若干个颜色层面上。最后通过特征分析和大小一致性判据从颜色层面中挑选出文字字符图像层面,获得在文字图像层面的字符图像。该算法解决了彩色文字字符笔画图像渐变的字符图像提取问题,并具有较高的提取速度,具有较高的提取准确率,同时保留了文字和背景图像的原始色彩,便于将来的图像恢复。
1.基于游程邻接图的复杂背景彩色图像中字符提取方法,其特征在于:它依次包含以下 步骤:
(1)通过图像采集设备把彩色印刷文档或照片图像扫描入图像处理器中;
(2)在上述图像处理器中设定:
图像的高和宽分别用符号H和V表示;
图像中每一行象素与同一行和它紧邻的彩色游程在RGB空间内的欧氏距离opq的阈值为 TD;
从图像的第二行开始算起,该彩色游程与上一相邻行在位置上是4邻域相连的彩色游程 在RGB空间的欧氏距离opp.的阈值是TV,选取TD=TV=12~16;
连通域的初始中心与组成图像所有连通域的集合中的其他连通域在RGB彩色空间的欧 氏距离ocn的阈值TC,选取TC=20~50;
待选连通域最大高度Hmax=min(H,400),象素数;
待选连通域最大宽度Vmax=min(V,400),象素数;
待选连通域最小高度Hmin=3,象素数;
待选连通域最小宽度Vmin=3,象素数;
待选连通域的高宽比或宽高比的最小值为1,最大值为50;
各连通域的象素密度用( )表示,hn和vn分别指代的是所得彩色连通域的高 和宽,mn表示第n个连通域内的彩色游程数,fpu表示第pu个游程的游程长度,设定:
在连通域彩色聚类过程中的阈值TC=20~50;
在选取得到的备选彩色层面数K≤L+2,L=4;
(3)分割彩色图像,获取彩色连通域,即一幅图像用连通域集合来描述;
(3.1)从每一行的第一个象素开始,认为该象素为一个新的游程的起始点,计算该起始点 和同一行中与它紧邻的象素在RGB空间内的欧氏距离opq,其中所述的彩色游程表示如下: Rp{(rp,gp,bp),(xp,yp),fp},rp,gp,bp是游程上各点在RGB彩色空间的r,g,b颜色分量平均 值,(xp,yp)为该游程的起始坐标,fp为游程的长度:
若opq<TD,则把两个象素合并成为一个游程,并计算该游程的平均r,g,b值,即 rp,gp,bp:
游程的长度增1:fp=fp+1;
反之,第二个象素便成为新游程的起始点,继续计算其与下一个相邻象素的欧氏距离, 如果仍小于TD,就将该象素加入该游程,并重新计算它的r,g,b值,否则,以该象素点为 下一个新游程起始点;根据上述规则,可以这样遍历图像每一行中的所有象素得到若干个彩 色游程;
(3.2)从图像的第二行开始得到彩色游程后,计算该游程与上一相邻行在位置上是4邻域 相连的彩色游程在RGB空间的欧氏距离opp′:
判断该距离是否小于TV,若小于则合并为同一个连通域,即连接这两个游程;反之,作 为新连通域的起始游程;以这种方式遍历完整幅图像后,根据游程之间的连接关系便可以得 到组成图像的所有连通域的集合{Cn|n=1,2,...,K};
所述连通域用下列结构式表示:
Cn{(rn,gn,bn),Xn,(vn,hn)},(rn,gn,bn)表示的是连通域Cn的平均颜色r,g,b值,
Xn={Rpu|u=1,2...mn}表示该连通域内包含的所有彩色游程的集合,通过简单计算很容 易得到连通域的高vn和宽hn;
(4)对连通域进行彩色聚类,以得到适当数目的颜色聚类中心;
同时按以下三个准则选取参与彩色聚类的连通域样本:
1)Hmin<hn<Hmax,Vmin<vn<Vmax,即参与彩色聚类的连通域的高度和宽度 都要在上述设定范围内;
2)H_Vmin<hn/vn<H_Vmax,或者V_Hmin<vn/hn<V_Hmax,其中的 H_Vmin和H_Vmax分别指的是连通域的高度与宽度比值的最小和最大值,同样, V_Hmin和V_Hmax指的是宽高比的最小和最大值;
3) ,即连通域的象素密度在Q1和Q2之间;
(5)形成图像层面,并从中删除噪声层和明显的背景层,并得到有可能包含文字的图像 层;
(5.1)形成图像层面
把所有高或宽分别小于文本区域图像的高或宽的连通域都与颜色中心比较,如果连通域 的平均颜色值和颜色中心的欧氏距离小于TC,便将满足这个条件的连通域放在一个图像层面 上,从而可以得到多个层面,同时把它们全部转为白底黑字的图像;
(5.2)按照以下准则依次排除非文字字符层
1)当每一个文字层的象素数少于200个,定为噪声层,予以排除;
2)如果连通域的高和宽和测试图像大小相当,就把该连通域的中心颜色作为背景色, 它所在层面为背景层面;
(5.3)在前景色不多于L个的条件下,若剩下图像层面数大于L个时,便选取层面中所 包含黑色象素总数排在前L+2个的层面,作为可能存在文字字符图像的层面,按以下步骤处 理;前景指的是整幅图像中所包含的文字字符图像,前景色指的是这些文字字符图像的大致 颜色,图像中除了文字字符图像以外的部分都称为背景;
(6)根据一致性判据公式计算得到的步骤(5.3)所得的可能的文字字符图像层的一致 性判决值Pi,(1≤i≤K),K为上述层面数,进行排序,其Pi值最大的层面即为最可能的文字 字符层面;
(6.1)对于所述K个层面分别作为水平和垂直方向的投影,可以得到水平方向投影宽度 uil(0≤l<Ni)和垂直方向的投影宽度wij(0≤j<Mi),i为图像层面的序号,l代表水平方 向投影宽度的序号,j代表垂直方向投影宽度的序号,为了消除小噪声的干扰,每一个坐标 位置上的对应的投影黑色象素数目必须超过5个;同时,仅统计两个方向上投影宽度超过10 个象素宽的投影个数Ni和Mi,即Ni和Mi分别为在两个方向上得到的符合要求的投影宽度 的总数;水平方向上相邻两个投影宽度之间的距离为水平投影间隔宽度eis(0≤s<Zi),垂直 方向上相邻两个投影宽度之间的距离为垂直投影间隔宽度dit(0≤t<Yi),Zi和Yi分别为在两 个方向上得到的投影间隔宽度的总数;
(6.2)计算以下各值:
水平方向投影的平均宽度
垂直方向投影的平均宽度
水平方向投影间隔的平均宽度
垂直方向投影的平均宽度
水平投影宽度的方差为
垂直投影宽度的方差为
水平投影间隔宽度的方差
垂直投影间隔宽度的方差
(6.3)在原文字区域图像内文字颜色单一,所含文字行或列的总数小于三个,且行或列方 向上的文字近似在一条直线上,按下式计算一致性判据值Pi:
i为层面数,i=1,...,K;
对得到的Pi按大小排序,取其值最大的文字层面供文字字符切分与识别使用。
技术领域\n基于游程邻接图的复杂背景彩色图像中字符提取方法既属于图像分割领域,又属于文字 识别的预处理领域。\n背景技术\n从具有复杂彩色图像中提取文字字符,已经成为彩色印刷体文档识别系统中的既 困难又关键的步骤。在彩色印刷文本图像中和照片图像中往往存在着大量的文字,这些文 字符包含了很多有用的信息。为了提取这些有用信息,首先需要从复杂的彩色图像中自动而 精确的提取这些有用的字符图像,才能予以识别处理。目前流行的OCR系统尚不能解决这种 在复杂彩色图像中文字的提取问题。\n彩色文档中文字字符的提取方法大致可以分为两类:第一类是不考虑彩色印刷文档中特 有的彩色信息,而直接将其扫描转为灰度图像,后进行二值化分割。这一类方法丢失了文档 图像的彩色信息,已经不适用于从复杂的彩色图像中提取文字字符前景图像。第二类方法是 先利用颜色信息得到图像的连通域,而后分析得到字符层面。由于这一类方法较之第一类更 多地考虑了彩色印刷文档图像的颜色信息,所以在处理具有复杂背景的彩色文本图像时具有 明显的优越性,因而这一类方法已经逐渐成为现在研究的热点。\n目前,在第二类方法中大致分为大致又可以分为三类:\n1)边缘分析:在图像中的颜色突变处抽取边缘,并通过分析边缘来抽取不同的颜色层面。\n对于背景条纹干扰等复杂现象,采用边缘分析时将产生大量的边缘断裂和交叉的情况, 给颜色层面的分割带来很大的困难。\n2)区域生长:根据颜色一致性准则进行区域生长、合并,分割不同的颜色层面\n3)聚类分析:抽取图像中每一个象素点的颜色特征矢量,并在选定的颜色空间上对这些 特征进行聚类分析,根据聚类的结果来分割颜色层面。通过分析发现直接聚类对于背景变化 大的图像会产生过多的聚类中心,如果采用模糊C均值聚类,在平滑过程中会使所占象素数 较少的中心丢失,这样会引起小字的丢失,并且由于损失边缘过渡颜色信息,会造成笔画过 多的断裂。\n边缘分析和聚类分析的方法没有充分的利用彩色图像特有的颜色和位置的相关信息,因 而都不能很好的从彩色图像中提取文字字符。\n传统的区域生长算法采用的生长准则造成了过量的计算消耗,但是区域生长算法恰恰是 考虑到彩色图像中的颜色和位置的相关信息,有效的避免了颜色聚类法忽视位置信息的缺陷, 同时可以通过改进生长准则来减少计算量。\n本发明就是通过采用新的区域生长算法CRAG(Color Run-length Adjacency Graph),从图 像中搜索得到彩色连通域,而后将这些连通域的平均颜色进行颜色聚类,根据得到的颜色中 心生成不同的色彩层面。最后根据特定的判别准则得到所需要的可能的文字层面。这种方法 有以下优点:\n1)算法简单,计算速度快;\n2)以连通域为单位的颜色聚类使文字更容易被分出来;\n3)能自动处理反白文字;\n4)可以提取图像中由于字符本身,或者由于光照而造成颜色渐变的字符;\n5)保留字符颜色信息。\n本发明就是通过利用相邻象素的彩色和位置信息,同彩色聚类相结合作为主要的突破口, 实现了高速度高准确性高性能的字符提取算法,同时也是一种图像分割算法。这是目前所有 其他文献里都没有使用的方法。\n发明内容\n本发明的目的在于实现基于CRAG结构区域生长算法的复杂彩色图像中文字字符提取的 方法,该方法也可以应用于彩色图像分割领域。在BAG结构的基础上提出了新的彩色空间内 的CRAG结构,并以此为基础,提出了一种新的区域生长算法。最后,以该生长算法为核心 建立了一种彩色文档图像中文字字符的提取方法(下面中所指的CRAG方法即为此方法)。\n需要说明的是本发明的方法适用于其他任何彩色空间,只需要将下文中的r(红),g(绿), b(蓝)三种颜色分量分别对应于其他彩色空间的三个基本分量即可,方法中涉及到的阈值根 据选取的色彩空间不同而有所不同。本发明采用的聚类方法不必仅局限于初始聚类方法,也 可以采用其他聚类方法。\n本发明有以下4部分组成:彩色图像分割,连通域中心颜色聚类,图像层面生成与字符 层选取。\n1彩色图像分割\n采用的是基于CRAG结构的彩色连通域搜索算法,属于区域生长算法。这里简称为CRAG 算法。\n该算法的思路与二值图像上连通域轮廓提取的BAG(block adjacency graph)算法相 近。CRAG算法可以理解成两个步骤,首先获取水平方向彩色游程,然后把相邻的颜色相近 的彩色游程不断合并,得到彩色连通域。下面以RGB空间为例进行说明:\n彩色游程表示如下:Rp{(rp,gp,bp),(xp,yp),fp},其中(rp,gp,bp)是游程上各点在RGB彩色 空间的r,g,b颜色分量平均值,(xp,yp)为该游程的起始坐标,fp为游程的长度。\n产生方法如下:从每一行的第一个象素开始,认为该象素为一个新的游程的起始点,计 算该起始点和同一行中与它紧邻的象素在RGB空间内的欧氏距离opq,\n\nIf(opq<TD)\n{ fp=fp+1;}\nElse{p=p+1;rp=rq;gp=gq;bp=bq;} (1-1)\n根据(1-1)可知:如果opq小于阈值TD,那么这两个象素合并为一个游程,并重新计算该 游程的平均r,g,b值:rp,gp,bp,反之,第二个象素便成为新游程的起始点。继续计算其与 下一个相邻象素的欧氏距离,如果仍小于TD,就将该象素加入该游程,并重新计算它的r, g,b值,否则,以该象素点为下一个新游程起始点。根据上述规则,可以这样遍历图像每一 行中的所有象素得到若干个彩色游程。\n另外从图像的第二行开始,在得到一个彩色游程以后,计算该游程与上一相邻行在位置 上是4邻域相连的彩色游程在RGB空间的欧氏距离opp′:\n\n判断该距离是否小于TV,若小于则合并为同一个连通域,即连接这两个游程;反之,作 为新连通域的起始游程。TD和TV在12~16之间取值。\n如图6所示:图中每一个方格代表一个象素,对于象素“5”来讲,“2,4,6,8”四个 相邻的象素所在的位置与它4邻域相连。对于两个相邻行的不同游程而言,如果它们各自包 含的象素彼此之间的相对位置中有符合图6所示的4邻域相连位置的情况,那么称这两个游 程之间4邻域相连。\n按照上述规则,遍历完整幅图像后,根据游程之间的连接关系便可以得到组成图像的所 有连通域的集合{Cn|n=1,2,...,K}。\n连通域的结构定义如下:\nCn{(rn,gn,bn),Xn,(vn,hn)}。(rn,gn,bn)表示的是连通域Cn的平均颜色r,g,b值,\n\n\n\nXn={Rpu|u=1,2...mn}表示该连通域内包含的所有彩色游程的集合。通过简单计算很容 易得到连通域的高vn和宽hn。从而,一幅图像可以用所有得到的连通域描述。\n2连通域彩色聚类步骤分析\n任意选取一个连通域的颜色作为初始中心,计算其它连通域与其在RGB彩色空间的欧氏 距离ocn:\n\n若小于阈值TC,将其聚类,重新计算r,g,b的均值作为聚类的中心颜色值,若大于 TC,则生成第二个新的中心,按照该方法计算所有样本,由于颜色中心位置不断变化,同时 需要合并中心距离小于TC的颜色中心,最终可以得到适当数目的颜色聚类中心。\n有些特殊的连通域不可能是文字块,预先作了一个筛选,参与聚类连通域样本的选取准 则如下:\n1)Hmin<hn<Hmax,Vmin<vn<Vmax;\n2)H_Vmin<hn/vn<H_Vmax,或者V_Hmin<vn/hn<V_Hmax;\n3) 这里 表示连通域的象素密度。\n上式中hn和vn分别指代的是所得彩色连通域的高和宽,mn表示第n个连通域内的彩色游 程数,fpu表示第pu个游程的游程长度。\n1)中,由于测试图像中的字符笔画高度和宽度分别大都是小于图像高H和宽V,所谓高, 即指图像的纵向象素数目,宽指图像的横向象素数目。这里设定待选连通域最大高宽分别为: Hmax=min(H,400),Vmax=min(V,400),这是由于目前彩色印刷文档中的文字字符的字 号大都小于120磅,而在300dpi扫描分辨率的情况下录入的彩色图像中,该字符笔画的最大 高宽均小于400个象素长,同时,考虑到文本区域图像实际的高宽。Hmin和Vmin分别为参 与颜色聚类的连通域样本的最小高宽,通过实验可知如果该值取得过大会降低小字体的招回 率,因而为了使本发明具有广泛的通用性这里取值为3,这样既可以除去大量噪声点的干扰, 又很好的保留了标点符号的图像。\n2)中的H_Vmin和H_Vmax分别指的是连通域的高度与宽度比值的最小和最大值,同 样,V_Hmin和V_Hmax指的是宽高比的最小和最大值。在这里根据笔画的特点,最小值 为1,最大值为50即可。\n3)中如果Q1=0.3,Q2=0.8,部分由图像的边框和其他狭长的细线边缘的影响将被排除, 需要说明的是Q1和Q2仍可以在设定值的±0.2左右变化,即Q1可以在0.1~0.5范围内取值,Q2 的取值范围可以是0.6~1。\n另外,刚提到的阈值TC可以在20-50之间取值,但TC较小的时候,会造成层面过多, 因而,采用TC=45,减少了图像层面的生成,降低计算消耗,这对于从彩色图像中提取文字 字符是一个很好的选择,可以有效的去干扰噪声点。\n以上这些参量的设定范围的不同,会造成聚类所用的连通域数目变化,同时也会改变生 成的颜色中心数目的不同。如果限定的过窄,虽然能降低计算量,提高速度,但是对某些个 别背景和前景过于颜色接近的会造成粘连;如果太宽,会造成生成的颜色中心过多,增加计 算量。因而,通过实验发现:如果在上面所提到的参数范围内选值,可以取得很好的文字字 符提取结果。并且,通过这些条件的限制,进一步降低了初始聚类的运算量,同时也一定程 度的去处了部分噪声颜色中心。\n3图像层面的生成\n将所有高或宽分别小于文本区域图像的高或宽的连通域都与颜色中心比较,如果连通域 的平均颜色值和颜色中心的欧氏距离小于TC,便将满足这个条件的连通域放在一个图像层面 上,从而可以得到多个层面,这样文字字符图像便可能会存在一个或多个层上。另外如果存 在高和宽分别等于文本区域图像高和宽的连通域,则把该连通域所在的层面定为背景层面。 (为了便于后续切分识别工作,这里已将生成的层面全部转为白底黑字的图像。)然后,通过 如下准则先排除部分非文字字符图层:\n1)每一个文字层的象素数要超过200个,否则定为噪声层;\n2)如果连通域C的高和宽和测试图像大小大体相当,那么将C的中心颜色作为背景色, 它所在层面为背景层面;\n如果通过1),2)的筛选后,如果剩下的层面数大于L个的时候,这里假定前景色不多于 L个,便取层面中所包含黑色象素总数排在前L+2个的层面。前景指的是整幅图像中所包含 的文字字符图像,前景色指的是这些文字字符图像的大致颜色,图像中除了文字字符图像以 外的部分都称为背景。\n这里,L可以根据实际情况选取,本发明的一般取L=4,在这个范围内取值可以有效的 进一步减少备选字符层中的噪声或背景层面,避免字符层的丢失。通过删除噪声层,背景层 等上述选取准则以后,剩下的层中将被认为有可能包含文字字符的图像层。\n4字符层面的选择\n假定图像的垂直方向上的高度为H,水平方向上的宽度为V。颜色分层后得到K个层面, 对于层面i(1≤i≤K),分别作水平和垂直方向的投影,可以得到水平方向投影宽度的uil (0≤l<Ni)和垂直方向的投影宽度wij(0≤j<Mi),i为图像层面的序号,l代表水平方向投 影宽度的序号,j代表垂直方向投影宽度的序号,为了消除小噪声的干扰,每一个坐标位置 上的对应的投影黑色象素数目必须超过5个。同时,仅统计两个方向上投影宽度超过10个象 素宽的投影个数Ni和Mi,即Ni和Mi分别为在两个方向上得到的符合要求的投影宽度的总 数。水平方向上相邻两个投影宽度之间的距离为水平投影间隔宽度eis(0≤s<Zi),垂直方向 上相邻两个投影宽度之间的距离为垂直投影间隔宽度dit(0≤t<Yi),Zi和Yi分别为在两个方 向上得到的投影间隔宽度的总数。根据得到的以上结果,可以计算得出层面i上投影宽度的平 均值:\n水平方向投影的平均宽度 垂直方向投影的平均宽度\n\n层面i上投影间隔宽度的平均值:\n水平方向投影间隔的平均宽度 垂直方向投影的平均宽度\n\n 计算得到该层面水平投影宽度的方差为 垂直投影宽度的 方差为 \n该层面的水平投影间隔宽度的方差 垂直投影间隔宽度的方 差 \n通过分析文字字符连通域的特征可以发现,文字字符图像连通域的大小基本一致,分布 比较均匀,根据这些物理特性,可以定义图层的大小一致性判据pi如下(1≤i≤K):\n\nmax()和min()分别代表括号中两个数值的最大和最小值。\n计算各个图层的大小一致性判据pi,并按数值大小排序,最大的即为最可能的文字字符 层面。实验结果也表明,通过大小一致性判别准则,可以在一定范围的满足了系统对自动判 别文字层面的要求,同时可以为系统提供备选层面的排列顺序,便于后续的处理工作。\n本发明的特征在于:它依次包含以下步骤:\n(1)通过图像采集设备把彩色印刷文档或照片图像扫描入图像处理器中;\n(2)在上述图像处理器中设定:\n图像的高和宽分别用符号H和V表示;\n图像中每一行象素与同一行和它紧邻的彩色游程再RGB空间内的欧氏距离opq的阈值为 TD;\n从图像的第二行开始算起,该彩色游程与上一相邻行在位置上是4邻域相连的彩色游程 在RGB空间的欧氏距离opp'的阈值是TV,选取TD=TV=12~16。\n连通域的初始中心与组成图像所有连通域的集合中的其他连通域在RGB彩色空间的欧 氏距离ocn的阈值TC,选取TC=20~50;\n待选连通域最大高度Hmax=min(H,400),象素数;\n待选连通域最大宽度Vmax=min(V,400),象素数;\n待选连通域最小高度Hmin=3,象素数;\n待选连通域最小宽度Vmin=3,象素数;\n待选连通域的高宽比或宽高比的最小值为1,最大值为50;\n各连通域的象素密度用 表示,hn和vn分别指代的是所得彩色连通域的高 和宽,mn表示第n个连通域内的彩色游程数,fpu表示第pu个游程的游程长度,设定:\n Q1=0.1~0.5,Q2=0.6~1;\n在连通域彩色聚类过程中的阈值TC=20~50;\n在选取得到的备选彩色层面数K≤L+2,L=4。\n(3)分割彩色图像,获取彩色连通域,即一幅图像用连通域集合来描述。\n(3.1)从每一行的第一个象素开始,认为该象素为一个新的游程的起始点,计算该起始点 和同一行中与它紧邻的象素在RGB空间内的欧氏距离opq,其中所述的彩色游程表示如下: Rp{(rp,gp,bp),(xp,yp),fp},rp,gp,bp是游程上各点在RGB彩色空间的r,g,b颜色分量平均 值,(xp,yp)为该游程的起始坐标,fp为游程的长度:\n\n若opq<TD,则把两个象素合并成为一个游程,并计算该游程的平均r,g,b值,即 rp,gp,bp:\n \n游程的长度增1:fp=fp+1;\n反之,第二个象素便成为新游程的起始点,继续计算其与下一个相邻象素的欧氏距离, 如果仍小于TD,就将该象素加入该游程,并重新计算它的r,g,b值,否则,以该象素点为 下一个新游程起始点。根据上述规则,可以这样遍历图像每一行中的所有象素得到若干个彩 色游程。\n(3.2)从图像的第二行开始得到彩色游程后,计算该游程与上一相邻行在位置上是4邻域 相连的彩色游程在RGB空间的欧氏距离opp′:\n\n判断该距离是否小于TV,若小于则合并为同一个连通域,即连接这两个游程;反之,作 为新连通域的起始游程。以这种方式遍历完整幅图像后,根据游程之间的连接关系便可以得 到组成图像的所有连通域的集合{Cn|n=1,2,...,K}。\n所述连通域用下列结构式表示:\nCn{(rn,gn,bn),Xn,(vn,hn)}。(rn,gn,bn)表示的是连通域Cn的平均颜色r,g,b值,\n\n\n\nXn={Rpu|u=1,2...mn}表示该连通域内包含的所有彩色游程的集合。通过简单计算很容 易得到连通域的高vn和宽hn。\n(4)对连通域进行彩色聚类,以得到适当数目的颜色聚类中心。\n同时按以下三个准则选取参与彩色聚类的连通域样本:\n1)Hmin<hn<Hmax,Vmin<vn<Vmax,即参与彩色聚类的连通域的高度和宽度 都要在上述设定范围内;\n2)H_Vmin<hn/vn<H_Vmax,或者V_Hmin<vn/hn<V_Hmax,其中的 H_Vmin和H_Vmax分别指的是连通域的高度与宽度比值的最小和最大值,同样, V_Hmin和V_Hmax指的是宽高比的最小和最大值。\n3) 即连通域的象素密度在Q1和Q2之间。\n(5)形成图像层面,并从中删除噪声层和明显的背景层,并得到有可能包含文字的图像 层。\n(5.1)形成图像层面\n把所有高或宽分别小于文本区域图像的高或宽的连通域都与颜色中心比较,如果连通域 的平均颜色值和颜色中心的欧氏距离小于TC,便将满足这个条件的连通域放在一个图像层面 上,从而可以得到多个层面,同时把它们全部转为白底黑字的图像;\n(5.2)按照以下准则依次排除非文字字符层\n1)当每一个文字层的象素数少于200个,定为噪声层,予以排除;\n2)如果连通域的高和宽和测试图像大小相当,就把该连通域的中心颜色作为背景色, 它所在层面为背景层面;\n(5.3)在前景色不多于L个的条件下,若剩下图像层面数大于L个时,便选取层面中所 包含黑色象素总数排在前L+2个的层面,作为可能存在文字字符图像的层面,按以下步骤处 理。前景指的是整幅图像中所包含的文字字符图像,前景色指的是这些文字字符图像的大致 颜色,图像中除了文字字符图像以外的部分都称为背景。\n(6)根据一致性判据公式计算得到的步骤(5.3)所得的可能的文字字符图像层的一致 性判决值Pi,(1≤i≤K),K为上述层面数,进行排序,其pi值最大的层面即为最可能的文字 字符层面。\n(6.1)对于所述K个层面分别作为水平和垂直方向的投影,可以得到水平方向投影宽度的 uil(0≤l<Ni)和垂直方向的投影宽度wij(0≤j<Mi),i为图像层面的序号,l代表水平方 向投影宽度的序号,j代表垂直方向投影宽度的序号,为了消除小噪声的干扰,每一个坐标 位置上的对应的投影黑色象素数目必须超过5个。同时,仅统计两个方向上投影宽度超过10 个象素宽的投影个数Ni和Mi,即Ni和Mi分别为在两个方向上得到的符合要求的投影宽度 的总数。水平方向上相邻两个投影宽度之间的距离为水平投影间隔宽度eis(0≤s<Zi),垂直 方向上相邻两个投影宽度之间的距离为垂直投影间隔宽度dit(0≤t<Yi),Zi和Yi分别为在两 个方向上得到的投影间隔宽度的总数。\n(6.2)计算以下各值:\n水平方向投影的平均宽度 \n垂直方向投影的平均宽度 \n水平方向投影间隔的平均宽度 \n垂直方向投影的平均宽度 \n水平投影宽度的方差为 \n垂直投影宽度的方差为 \n水平投影间隔宽度的方差 \n垂直投影间隔宽度的方差 \n(6.3)在原文字区域图像内文字颜色单一,所含文字行或列的总数小于三个,且行或列方 向上的文字近似在一条直线上,按下式计算一致性判据值pi:\n\ni为层面数,i=1,...,K;\n对得到的Pi按大小排序,取其值最大的文字层面供文字字符切分与识别使用。\n(7)本发明可以作用于其他任何彩色空间,只需要将下文中的r,g,b三种颜色分量分别 对应于其他彩色空间的三个基本分量即可,方法中涉及到的阈值根据选取的色彩空间不同而 有所不同。\n本发明的实验效果表明,采用本发明处理包含文字的彩色图像可以得到很高的文字字符 正确提取率:对于彩色杂志上标题文字字符的正确提取率为94.4%,对于彩色报纸上文字字 符的正确提取率90.7%,彩色照片上文字字符的正确提取率95%,均高于采用现有的其他方 法的文字字符的正确提取率。\n附图说明\n图1一个典型的字符提取系统的硬件构成。\n图2基于CRAG的文字字符提取方法的流程图。\n图3CRAG结构示意图:3a,,3b,3c,3d,3e,3f,3g。\n图4多层面生成举例:4a为原始彩色图像,4b、4c、4d、4e、4f、4g、4h为生成的图 像层面。\n图5图层投影示意图:5a为垂直方向投影直方图,5b为垂直方向投影宽度示意图, 5c为水平方向投影直方图,5d为水平方向投影宽度示意图。\n图64邻域相连示意图。\n具体实施方式\n如图1所示,一个彩色图像中字符提取系统在硬件上有两个部分构成:图像采集设备和 处理器。图像采集设备一般是扫描仪,数字摄像机或数字照相机,用来获取包含字符的数字 图像。处理器一般是计算机或者某些具有运算处理能力的终端,用于对数字图像进行处理, 并进行文字字符提取。\n如图2所示的基于CRAG文字字符提取方法的流程图。首先通过扫描仪将彩色印刷文档 等扫入,或者将数字照相或摄像机获得的彩色图像输入到处理器(计算机或其他终端处理设 备),这样得到含有文字字符的彩色图像。而后对这些包含字符的图像采用区域生长算法得到 采用CRAG结构描述的彩色连通域,再加入连通域筛选准则,将筛选后连通域的平均颜色进 行简单的颜色聚类,得到的不同的颜色中心,根据这些颜色中心可以生成不同的色彩图像层 面,最后通过大小一致性判据得到待选的文字字符图像层面,即转变为所需的文字字符二值 图像,送入后续的字符切分与识别模块处理。\n分割图像获取连通域\n将包含文字字符的彩色图像转变为数字图像输入计算机后,采用CRAG算法分解图像为 多个连通域。该算法可以理解成两个步骤,首先获取水平方向彩色游程,然后把相邻的颜色 相近的彩色游程不断合并,得到彩色连通域。\n彩色游程表示如下:Rp{rp,gp,bp),(xp,yp),fp},其中(rp,gp,bp)是游程上各点在RGB彩色 空间的r,g,b颜色分量平均值,(xp,yp)为该游程的起始坐标,fp为游程的长度。\n产生方法如下:从每一行的第一个象素开始,认为该象素为一个新的游程的起始点,计 算该起始点和同一行中与它紧邻的象素在RGB空间内的欧氏距离opq,\n\nIf(opq<TD)\n{ fp=fp+1;}\nElse{p=p+1;rp=rq;gp=gq;bp=bq;} (1-1)\n根据(1-1)可知:如果opq小于阈值TD,那么这两个象素合并为一个游程,并重新计算该 游程的平均r,g,b值:rp,gp,bp,反之,第二个象素便成为新游程的起始点。继续计算其与 下一个相邻象素的欧氏距离,如果仍小于TD,就将该象素加入该游程,并重新计算它的r, g,b值,否则,以该象素点为下一个新游程起始点。根据上述规则,可以这样遍历图像每一 行中的所有象素得到若干个彩色游程。\n另外从图像的第二行开始,在得到一个彩色游程以后,计算该游程与上一相邻行在位置 上是4邻域相连的彩色游程在RGB空间的欧氏距离opp′':\n\n判断该距离是否小于TV,若小于则合并为同一个连通域,即连接这两个游程;反之,作 为新连通域的起始游程。\n如图6所示:图中每一个方格代表一个象素,对于象素“5”来讲,“2,4,6,8”四个 相邻的象素所在的位置与它4邻域相连。对于两个相邻行的不同游程而言,如果它们各自包 含的象素彼此之间的相对位置中有符合图6所示的4邻域相连位置的情况,那么称这两个游 程之间4邻域相连。\n按照上述规则,遍历完整幅图像后,根据游程之间的连接关系便可以得到组成图像的所 有连通域的集合{Cn|n=1,2,...,K}。\n连通域的结构定义如下:\nCn{(rn,gn,bn),Xn,(vn,hn}。(rn,gn,bn)表示的是连通域Cn的平均颜色r,g,b值,\n\n\n\nXn={Rpu|u=1,2...mn}表示该连通域内包含的所有彩色游程的集合。通过简单计算很容易 得到连通域的高vn和宽hn。从而,一幅图像可以用所有得到的连通域描述。\n门限TD和TV是影响算法成功与否的重要参数,如果选得过小,会使字符分得比较碎, 丧失了区域生长的意义,实质是损失了象素的位置信息,破坏了前景一致性的提取规则,同 时增加了下一步连通域颜色聚类的运算量;如果取得过大,会使字符连通域与其它目标粘连。 本发明这里采用经验参数,经实验验证当TD=TV=12~16这个范围的时候,可以得到很好的 结果,如果超过这个范围,往往会造成很多的字符与背景粘连,即无法从相似的背景中提取 字符。\n如图3所示:背景为黄绿两色,前景字符为渐变色文字的彩色图像3a可以看成是由前景 文字字符R的图像3b和背景图像3c组成,图3d表述组成字母R的连通域C1的CRAG 结构组成,图中若干矩形块用来表示该连通域所包含的彩色游程,各游程宽度为一个象素, 彩色游程之间的折线表示连通域内这些颜色相近彩色游程之间存在的连接关系。同样背景图 像3c可以用连通域C2,C3和C4联合表述,这三个连通域依次对应图3中的图3e,3g和3f。 假定忽略该图的边缘效应,采用CRAG算法便可以得到组成图像3a的连通域的集合 {Cn|n=1,2,...,K},K=3,h1和v1分别为C1的高和宽,h2和v2则分别为C2的高和宽。为了 更好地说明本算法的特点,这里字符前景采用的是渐变颜色。H和V分别表示原始图像的高 和宽。\n颜色聚类\n颜色是区分字符前景和背景的重要判据。为了人眼能够看清楚,字符本身的颜色一般与 背景有相当大的差别。把颜色不同的区域分开到不同的图像层上,便于文字字符区域的获取, 而对颜色聚类的步骤能够实现这样的目标。\n得到连通域以后,根据前景特点采用特定的连通域筛选准则,将符合要求的连通域的平 均颜色进行聚类,得到一些聚类中心,以每个聚类中心代表并构成一种颜色的层面。根据每 个连通域的颜色离哪个聚类中心更近,把它分到相应颜色的层上。\n一般聚类算法需要预先知道聚类中心的个数,而聚类中心的个数在本发明的应用中无法 实现确定。另外,颜色差别大于预定值的连通域分到不同的层上。以便使文字的背景和前景 分开。因而,在这里采用选择初始聚类中心的方法,聚类方法如下所述:\n任意选取一个连通域的颜色作为初始中心,计算其它连通域与其在RGB彩色空间的欧氏 距离,若小于阈值TC,将其聚类,重新计算r,g,b的均值作为聚类的中心颜色值,若大于 TC,则生成第二个新的中心,按照该方法计算所有样本,由于颜色中心位置不断变化,同时 需要合并中心距离小于TC的颜色中心,最终可以得到适当数目的颜色聚类中心。\n有些特殊的连通域不可能是文字块,预先作了一个筛选,参与聚类连通域样本的选取准 则如下:\n1)Hmin<hn<Hmax,Vmin<vn<Vmax;\n2)H_Vmin<hn/vn<H_Vmax,或者V_Hmin<vn/hnV_Hmax;\n3) 这里 表示连通域的象素密度。\n上式中hn和vn分别指代的是所得彩色连通域的高和宽。\n1)中,由于测试图像中的字符笔画高度和宽度分别大都是小于图像高H和宽V,所谓高, 即指图像的纵向象素数目,宽指图像的横向象素数目。这里设定待选连通域最大高宽分别为: Hmax=min(H,400),Vmax=min(V,400),这是由于目前彩色印刷文档中的文字字符的字 号大都小于120磅,而在300dpi扫描分辨率的情况下录入的彩色图像中,该字符笔画的最大 高宽均小于400个象素长,同时,考虑到文本区域图像实际的高宽。Hmin和Vmin分别为参 与颜色聚类的连通域样本的最小高宽,通过实验可知如果该值取得过大会降低小字体的招回 率,因而为了使本发明具有广泛的通用性这里取值为3,这样既可以除去大量噪声点的干扰, 又很好的保留了标点符号的图像。\n2)中的H_Vmin和H_Vmax分别指的是连通域的高度与宽度比值的最小和最大值,同 样,V_Hmin和V_Hmax指的是宽高比的最小和最大值。在这里根据笔画的特点,最小值 为1,最大值为50即可。\n3)中如果Q1=0.3,Q2=0.8,部分由图像的边框和其他狭长的细线边缘的影响将被排除, 需要说明的是Q1和Q2仍可以在设定值的±0.2左右变化,即Q1可以在0.1~0.5范围内取值,Q2 的取值范围可以是0.6~1。\n另外,刚提到的阈值TC可以在20-50之间取值,但TC较小的时候,会造成层面过多, 因而,采用TC=45,减少了图像层面的生成,降低计算消耗,这对于从彩色图像中提取文字 字符是一个很好的选择,可以有效的去干扰噪声点。\n以上这些参量的设定范围的不同,会造成聚类所用的连通域数目变化,同时也会改变生 成的颜色中心数目的不同。如果限定的过窄,虽然能降低计算量,提高速度,但是对某些个 别背景和前景过于颜色接近的会造成粘连;如果太宽,会造成生成的颜色中心过多,增加计 算量。因而,通过实验发现:如果在上面所提到的参数范围内选值,可以取得很好的文字字 符提取结果。并且,通过这些条件的限制,进一步降低了初始聚类的运算量,同时也一定程 度的去处了部分噪声颜色中心。与直接采用C均值聚类方法比较,聚类样本数减少从而减少 了聚类运算量,同时克服了模糊C均值的平滑过程引起所占象素较少的文字字符丢失的问题。\n图像分层\n在连通域颜色聚类之后,计算连通域与聚类中心的欧氏距离。若距离小于TC,即具有相 似彩色的连通域分到一个层上,便可以生成不同的图像层。\n在生成文字字符层面图像的过程中,同样需要一些连通域筛选准则,但是,印刷文字字 体大小大都在10pt-12pt之间,同时彩色图像点扩散效应的存在,得到文字字符的笔画连通域 都比较小,标点符号也是需要兼顾的。因而,为了避免小的连通域丢失而造成笔画断裂,生 成字符层面时的连通域筛选准则与颜色聚类时采用的筛选准则并不相同。\n在这一步骤中,将所有高或宽分别小于文本区域图像的高或宽的连通域都与颜色中心比 较,如果连通域的平均颜色值和颜色中心的欧氏距离小于TC,便将满足这个条件的连通域放 在一个图像层面上,从而可以得到多个层面,这样文字字符图像便可能会存在一个或多个层 上。另外如果存在高和宽分别等于文本区域图像高和宽的连通域,则把该连通域所在的层面 定为背景层面。(为了便于后续切分识别工作,这里已将生成的层面全部转为白底黑字的图 像。)然后,通过如下准则先排除部分非文字字符图层:\n1)每一个文字层的象素数要超过200个,否则定为噪声层;\n2)如果连通域C的高和宽和测试图像大小大体相当,那么将C的中心颜色作为背景 色,它所在层面为背景层面;\n3)如果通过1),2)的筛选后,如果剩下的层面数大于L个的时候,这里假定前景色 不多于L个,便取层面中所包含黑象素总数排在前L+2个的层面。前景指的是整 幅图像中所包含的文字字符图像,前景色指的是这些文字字符图像的大致颜色, 图像中除了文字字符图像以外的部分都称为背景。\n这里,L可以根据实际情况选取,本发明的一般取L=4,在这个范围内取值可以有效的 进一步减少备选字符层中的噪声或背景层面,避免字符层的丢失。通过删除噪声层,背景层 等上述选取准则以后,剩下的层中将被认为有可能包含文字字符的图像层。\n如图4中所示,4a为原始文本区域图像,4b,4c,4d,4e,4f,4g,4h为根据连通域平均颜色 聚类得到的7颜色中心而生成的7个图像层面,这里为了便于处理,各图层都已经转为黑白 图像。根据上述准则选取所含象素数目位于前六名的4b,4c,4d,4e,4f,4g六个层面。注意到 备选层面仍然过多,下面将对于常见情况的给出进一步字符层面判断准则。\n字符层选择\n由于本发明不涉及到字符的切分和识别,并且系统一般要求在文字字符图像提取阶段尽 量不引入切分信息,因而需要一种简单易行的方法来进行自动的文字字符层面的判决。通过 分析印刷文档中文字字符的有两个明显的特点:\n●文本区域图像内的文字字符大小基本一致;\n●文字字符排列较为整齐。\n本发明将利用上述特点定义一种大小一致性准则,进行字符层面。\n由于本发明提供的大小一致性准则主要是利用图像层面中的象素两方向投影的大小,是 针对单行文字的投影或者在垂直方向上无交错多行文字情况设定的,并不考虑更为复杂的情 况。对于更为复杂的情况,需要更为复杂的切分步骤去得到文字字符块的大小,而本发明这 里只是在将文字字符层面送入后续切分识别之前进行的初步判断,因此这就要求在原文本区 域图像还符合下述情况下:\n●原文本区域图像内的文字颜色单一;\n●所含文字行或列的总数不超过三个,且在行和列方向都是整齐的,即近似位于一条\n直线上。\n保证根据本发明定义的大小一致性原则进行文字字符层面的自动判断,得到较高的文字 字符层面的判别准确率。\n为了便于说明,以错误!未找到引用源。中的图层4c为例,参照图5所示,假定图像的 垂直方向上的高度为H,水平方向上的宽度为V。颜色分层后得到K个层面,对于层面i (1≤i≤K),分别作水平和垂直方向的投影,可以得到水平方向投影宽度的uil(0≤l<Ni)和 垂直方向的投影宽度wij(0≤j<Mi),i为图像层面的序号,l代表水平方向投影宽度的序号, j代表垂直方向投影宽度的序号,为了消除小噪声的干扰,每一个坐标位置上的对应的投影 黑色象素数目必须超过5个。同时,仅统计两个方向上投影宽度超过10个象素宽的投影个数 Ni和Mi,即Ni和Mi分别为在两个方向上得到的符合要求的投影宽度的总数。水平方向上 相邻两个投影宽度之间的距离为水平投影间隔宽度eis(0≤s<Zi),垂直方向上相邻两个投影 宽度之间的距离为垂直投影间隔宽度dit(0≤t<Yi),Zi和Yi分别为在两个方向上得到的投影 间隔宽度的总数。根据得到的以上结果,可以计算得出层面i上投影宽度的平均值:\n水平方向投影的平均宽度 垂直方向投影的平均宽度\n\n层面i上投影间隔宽度的平均值:\n水平方向投影间隔的平均宽度 垂直方向投影的平均宽度\n\n计算得到该层面水平投影宽度的方差为 垂直投影宽度的 方差为 \n该层面的水平投影间隔宽度的方差 垂直投影间隔宽度的方 差 \n通过分析文字字符连通域的特征可以发现,文字字符图像连通域的大小基本一致,分布 比较均匀,根据这些物理特性,可以定义图层的大小一致性判据pi如下(1≤i≤K):\n\nmax()和min()分别代表括号中两个数值的最大和最小值。\n计算各个图层的大小一致性判据pi,并按数值大小排序,最大的即为最可能的文字字符 层面。实验结果也表明,通过大小一致性判别准则,可以在一定范围的满足了系统对自动判 别文字层面的要求,同时可以为系统提供备选层面的排列顺序,便于后续的处理工作。\n表1给出了,对于图4中的原始文本区域图像4a的六个字符代选层面4b,4c,4d,4e,4f,4g 的一致性判据,根据Pi得出4c图层即为生成的文字字符层面。同时对照比较图4中的4c和 4e,可以很容易的发现,4e中大都含有的是文字字符的轮廓边缘,因而其一致性判据排在第 二位。由此可以看出,可以按P(i)的大小将备选层面排序。\n表1图像4a的各图层的一致性判据\n 4b 4c 4d 4e 4f 4g Pi 11.394 82.948 21.704 47.1 10.289 4.819\n由于切分和识别不属于本发明的涉及范围,因而在本发明中将不再作阐述。 样本库\n为了验证该方法的优越性,根据常见的彩色印刷文档图像建立了一些样本库,如表2所 示。\n表2样本库数据统计列表\n 名称 文本区域图像块数(张) 字符数(个) 彩色杂志样本库 标题库 47 1224 正文库 30 5420 彩色报纸样本库 39 551 彩色照片图像库 52 664\n实验结果\n表3给出了多种方法的比较结果\n表3正确提取字符数比较\n 字符数(个) CRAG 方法 直接颜 色聚类 连通性 分析法 局域自适 应动态阈值法 彩色杂志标题库 (1224) 1156 732 905 847 彩色报纸样本库 (551) 500 457 318 143 彩色照片样本库 (664) 631 578 357 277\n综上所述,可以发现CRAG方法具有在以下几种优点:\n●算法简单,能有效的克服背景噪声变化的影响;\n●以连通域为单位的颜色聚类使文字更容易被分出来,并减少了运算量;\n●能自动处理反白文字和多色字;\n●可以提取前景色范围变化较大的字符图像,利用由于字符本身,或者由于光照而造成 颜色渐变的字符;\n●受边缘过渡效应影响小,避免了小字符的丢失;\n●保留了字符颜色信息;\n●可处理对象范围广:如彩色杂志,报纸和照片图像等。\n本发明在实验中获得了优异的识别结果,具有非常广泛的应用前景。
法律信息
- 2014-08-20
未缴年费专利权终止
IPC(主分类): G06K 9/80
专利号: ZL 200410062261.2
申请日: 2004.07.02
授权公告日: 2007.04.25
- 2007-04-25
- 2005-05-04
- 2005-03-02
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| | 暂无 |
2000-12-14
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2011-06-22 | 2011-06-22 | | |
2 | | 2011-03-24 | 2011-03-24 | | |
3 | | 2011-06-22 | 2011-06-22 | | |