著录项信息
专利名称 | 基于相邻边缘点距离统计的文字图象分割方法 |
申请号 | CN200310108450.4 | 申请日期 | 2003-11-06 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2004-11-03 | 公开/公告号 | CN1542697 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06T9/20 | IPC分类号 | G;0;6;T;9;/;2;0;;;G;0;6;T;7;/;6;0查看分类表>
|
申请人 | 上海交通大学 | 申请人地址 | 上海市闵行区东川路800号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 上海交通大学 | 当前权利人 | 上海交通大学 |
发明人 | 胡小锋;叶庆泰 |
代理机构 | 上海交达专利事务所 | 代理人 | 王锡麟;王桂忠 |
摘要
一种基于相邻边缘点距离统计的文字图象分割方法,属于图象处理领域。方法如下:先将灰度图象用Canny算子检测边缘,检测相邻边缘点的水平方向距离;统计可能为文字的边缘点距离,检测出可能的文字图象行,形成文字图象行区域;统计边缘点数量,检测到精确的文字图象区域,并计算文字图象高度;统计图象像素的边缘点数量,设定可能文字图象列的阈值,检测出可能的文字图象列,形成文字图象列区域,并进行列边界调整得到精确的文字图象列区域;经行和列的位置检测后,得到文字图象的区域范围,最终准确分割出文字图象。本发明避免了颜色分割计算量大,分割精度低的问题,有效地抑制了复杂背景的干扰,显著提高了文字图象的分割精度和算法执行速度。
1.一种基于相邻边缘点距离统计的文字图象分割方法,其特征在于,方法如下:先将摄像头拍摄的灰度图象用Canny算子检测边缘,检测相邻边缘点的水平方向距离,统计可能为文字的边缘点距离,然后设定文字图象行的数量阈值,检测出可能的文字图象行,经合并后形成文字图象行区域,在各个文字图象行区域内,统计各行的边缘点数量,求得各区域相应的最小值后进行行边界调整,检测到精确的文字图象行区域,并计算各个行区域的文字图象高度,再在各个文字图象行区域内,统计每一列图象像素的边缘点数量,设定可能文字图象列的的数量阈值,据此检测出可能的文字图象列,可能的文字图象列合并形成文字图象列区域,并进行列边界调整得到精确的文字图象列区域,经行和列的位置检测后,得到文字图象的区域范围,最终准确分割出文字图象。
2.根据权利要求1所述的基于相邻边缘点距离统计的文字图象分割方法,其特征是,包含以下步骤:(1)边缘检测,对于同一幅图象,边缘检测的梯度阈值必须满足以下两个条件:首先,必须能检测出目标文字图象的边缘,其次,目标文字的背景区域内检测出的非文字图象“假边缘”最少;(2)水平方向相邻边缘点距离检测,设一幅矩阵大小M1×N1数字图象为f,f(i,j)为图像中象元,分割出的文字边缘图象表示为集合E,定义函数s(i,j),s(i,j)=1,f(i,j)∈E0,f(i,j)∉E]]>(1式)为获取边缘点的图象像素点坐标位置,定义函数P(s),(i,j)=P(s(i,j)),其中s(i,j)=1 (2式)或者分为X列的行位置PY=j(s(i,j)),Y行的列位置PX=i(s(i,j))j=PX=i(s(i,j)),其中s(i,j)=1 (3式)i=PY=j(s(i,j)),其中s(i,j)=1 (4式)i行上的两个边缘点为s(i,j),s(i,k),水平方向相邻边缘点的距离定义为D(i,j)D(i,j)=PX=i(s(i,j))-PX=i(s(i,k)) (5式)且,s,如果k<PX=i(s)<j成立,则s(i,PX=i(s))=0,利用(5)式检测水平方向相邻边缘点的距离;(3)相邻边缘点距离统计,设文字图象区域的相邻边缘点距离范围为[W1,W2],同一文字图象区域内,文字水平方向相邻边缘点距离接近相等,则每行统计满足下列条件的相邻边缘点距离的数量,(i)W1≤D(i,j)≤W2,i∈[1,M1-m0],j∈[1,N1-n0](ii)存在m,n,满足1≤m≤m0,1≤n≤n0,使得下式成立D(i+m,j+n)∈[D(i,j)-Δ,D(i,j)+Δ]其中,M1,N1表示数字图象的大小,m0,n0表示邻域的大小,△相邻边缘点距离的波动,通过实验分析,确定上述参数的大小;(4)文字图象行区域检测,根据每一行字符的最少个数,确定相邻边缘点距离统计的数量阈值T,检测可能文字图象行,相邻的可能文字图象行进行合并,形成可能的文字图象行区域,根据所要检测文字的最小高度,设定高度阈值H,检测得到文字图象的行区域,根据分割要求,通过实验分析,确定相邻边缘点距离统计的数量阈值T和文字图象的高度阈值H;(5)行区域边界调整,在分割出各个文字图象行区域内,分别统计每一行的边缘点数量,NY=Σj=1N1s(Y,j)]]>(6式)在每一个文字图象行区域内,找出最小的边缘点数量统计值N0b=min(NYb),Y1b≤Y≤Y2b]]>(7式)其中,b表示第b个文字图象行区域,Y1b和Y2b是第b个文字图象行区域的起始行和末尾行,在文字图象行区域的上下两个边界附近,统计各行的边缘点数量NY,如果NY≥N0b]]>(8式)则将该行并入b个文字图象行区域;(6)各行区域文字图象高度检测,经行区域边界调整后,检测到完整的完整文字图象行区域,在各行区域内,分别检测各文字图象区域的高度CHb=Yendb-Ystartb]]>(9式)其中,Yendb和Ystartb分别表示第b个文字图象行区域经边界调整后的区域末尾行和起始行;(7)文字图象行区域内列方向边缘点数量统计,在分割出的文字图象行区域中,统计每一列的边缘点数量,NXb=Σi=YstartbYendbs(i,X);]]>(10式)(8)文字图象列区域检测,设定文字图象区域内列边缘点的数量阈值TN,利用(11式)在文字图象行区域内检测可能文字图象列;NXb≥TN]]>(11式)(9)文字图象区域边界调整,印刷体的排版方式中其字符的间隔必然小于字符的高度,则以各文字图象行区域中检测的字符高度CHb为可能文字图象列合并的间隔阈值,第b个文字图像行区域内,两可能文字图象列的间隔为Gx,若Gx≤CHb,则合并;(10)文字图象区域分割,合并后,还存在几个可能的文字列区域,从中选出可能文字列最多的区域为文字列区域。
基于相邻边缘点距离统计的文字图象分割方法\n技术领域\n本发明涉及的是一种文字图象分割方法,特别是一种基于相邻边缘点距离统计的文字图象分割方法。属于图象处理领域。\n背景技术\n经文献检索发现,Hua Yang等人在《International Journal of PatternRecognition and Artificial Intelligence》(2000,14(7),963-978.)(《模式识别和人工智能的国际期刊》)上发表的“Extraction of Bibliography Information Based onImage of Book Cover”(“从图书封面的图象中提取书目信息”),该文中所提出的方法,先将图象的RGB(红、绿、蓝)彩色空间转换到HSI(色度、饱和度、强度)的彩色空间,然后进行彩色分割和连通域分析,从图书封面图象中分割出文字。\n该文涉及的技术主要存在以下缺陷和不足:(1)算法只限于从精装书本封面的文字图象分割;(2)算法执行时间很长,完整执行一次算法共大约需要320秒;(3)同一幅图象中文字尺寸大小不同,文字笔划宽度差别也不同,run-length的直方图统计难以准确检测出文字的笔划宽度;(4)算法虽然用几个实验验证,但是有待于进一步采用书库的图书进行验证;(5)上述文件中未提及图象的分辨率,或图象的大小。在解决以上的问题时,主要存在以下困难:(1)文字尺寸大小变化范围很大,最大文字是60×48像素点,最小文字10×8像素点。(2)文字颜色的种类繁多,某些文字颜色与背景颜色相近,颜色分割难以有效地进行。(3)不同结构特点的文字共存于一幅图象中,而不同结构的文字笔划数目差别很大,如汉字和英文。(4)算法应具有较快的速度。\n发明内容\n本发明的目的在于克服现有技术中的不足,提供一种基于相邻边缘点距离统计的文字图象分割方法,使其能够从自然场景图象中,准确、快速、可靠地分割出目标文字图象。\n本发明是通过以下技术方案实现的,本发明方法如下:先将摄像头拍摄的灰度图象用Canny算子检测边缘,检测相邻边缘点的水平方向距离。统计可能为文字的边缘点距离,设定阈值,检测出可能的文字图象行,经合并后形成文字图象行区域。在各个文字图象行区域内,统计各行的边缘点数量,求得各区域相应的最小值后进行行边界调整,检测到精确的文字图象区域,并计算各个行区域的文字图象高度。在各个文字图象行区域内,统计每一列图象像素的边缘点数量,设定可能文字图象列的阈值,据此检测出可能的文字图象列,可能的文字图象列合并形成文字图象列区域,并进行列边界调整得到精确的文字图象列区域。经行和列的位置检测后,得到文字图象的区域范围,最终准确分割出文字图象。\n虽然图象中的文字颜色,尺寸大小,结构等差别很大,但是属于同一类的文字具有如下特点:(1)文字的尺寸大小一致,相邻边缘点的距离近似相等。因此,对不同文字图象区域,分块进行相邻边缘点的距离统计。(2)文字的结构相同。因此,在同一文字图象区域内,每一行的近似相等的相邻边缘点距离统计数量相接近。(3)文字图象的纹理特征相同。因此,在同一文字图象区域内,在水平和垂直方向的必然存在相邻边缘点距离相等或接近相等的边缘像素点。(4)根据上述特点,利用相邻边缘点距离统计,进行文字图象区域的检测。\n以下对本发明方法作进一步的说明,方法步骤如下:(1)边缘检测对摄像头拍摄的灰度图象采用Canny算子检测边缘。对于同一幅图象,梯度阈值可以在一个比较大的范围内,能正确分割出文字图象。但必须满足以下两个条件:首先,必须能检测出目标文字图象的边缘,这限定了梯度阈值的上限;其次,目标文字的背景区域内不许检测出“假边缘”或者尽可能少,这粗略地限定了梯度阈值的下限值。通过实验分析,设定一个较为合理的阈值。在图书封面文字图象分割中,Canny算子边缘检测的梯度阈值范围优选为大于等于0.2,小于等于0.4。\n(2)水平方向相邻边缘点距离检测设一幅矩阵大小M1×N1数字图象为f,f(i,j)为图像中象元。分割出的文字边缘图象表示为集合E,定义函数s(i,j),s(i,j)=1,f(i,j)∈E0,f(i,j)∉E---(1)]]>为获取边缘点的图象像素点坐标位置,定义函数P(s),\n(i,j)=P(s(i,j)),其中s(i,j)=1 (2)或者分为X列的行位置PY=j(s),Y行的列位置PX=i(s)j=PX=i(s(i,j)),其中s(i,j)=1 (3)i=PY=j(s(i,j)),其中s(i,j)=1 (4)水平方向相邻边缘点的距离定义为D(i,j)D(i,j)=PX=i(s(i,j))-PX=i(s(i,k)) (5)且,s,如果k<PX=i(s)<j成立,则s(i,PX=i(s))=0。利用(5)式检测水平方向相邻边缘点的距离。\n(3)相邻边缘点距离统计设文字图象区域的相邻边缘点距离范围为[W1,W2],图书封面文字图象分割中,文字图象区域相邻边缘点距离的范围为[3,15]。同一文字图象区域内,文字水平方向相邻边缘点距离接近相等,则每行统计满足下列条件的相邻边缘点距离的数量。\n(i)W1≤D(i,j)≤W2,i∈[1,M1-m0],j∈[1,N1-n0](ii)存在m,n,满足1≤m≤m0,1≤n≤n0,使得下式成立D(i+m,j+n)∈[D(i,j)-Δ,D(i,j)+Δ]其中,m0,n0决定邻域的大小,Δ相邻边缘点距离的波动。通过实验分析,确定上述参数的大小。\n(4)文字图象行区域检测根据每一行字符的最少个数,可以确定相邻边缘点距离统计数量的阈值T,检测文字图象可能行。相邻的可能文字图象行进行合并,形成可能的文字图象区域。根据所要检测文字的最小高度,设定阈值H,检测得到文字图象的行区域。由于距离统计中,邻域约束条件的限制,H值可以取比文字实际高度略小更为合适。根据分割要求,通过实验分析,确定相邻边缘点距离统计的数量阈值T和文字图象的高度阈值H。\n(5)行区域边界调整在分割出各个文字图象行区域内,分别统计每一行的边缘点数量。\nNY=Σj=1N1s(Y,j)---(6)]]>\n在文字图象区域内,边缘点数量相对比较多。在每一个文字图象行区域内,找出最小的边缘点数量统计值N0b=min(NYb),Y1b≤Y≤Y2b---(7)]]>其中,b表示第b个文字图象行区域,Y1b和Y2b是b文字图象行区域的起始行和末尾行。在文字图象行区域的上下两个边界附近,统计各行的边缘点数量NY,如果NY≥N0b---(8)]]>则将该行并入b文字图象区域内。\n(6)各行区域文字图象高度检测经行区域边界调整后,检测到完整的完整文字图象行区域,在各行区域内,分别检测各文字图象区域的高度CHb=Yendb-Ystartb---(9)]]>其中,Yendb和Ystartb分别表示b文字图象行区域经边界调整后的区域末尾行和起始行。\n(7)行区域内列方向边缘点数量统计在分割出的文字行区域图象中,统计每一列的边缘点数量,NXb=Σi=YstartbYendbs(i,X)---(10)]]>(8)文字图象列区域检测设定文字图象区域内列边缘点的数量阈值TN,其中可能文字图象列检测的边缘点数量梯度阈值TN范围为[3,5]。利用(11)式在文字图象行区域内检测可能的文字图象列,NXb≥TN---(11)]]>可能的文字图象列进行合并,形成可能的文字列区域。由于文字图象大小不同,其字符的间隔也不相同,但是一般印刷体的排版方式中其字符的间隔必然小于字符的高度,则以各文字图象行区域中检测的字符高度CHb为可能文字图象列合并的间隔阈值。设b图像行区域内,两可能文图象列的间隔为GX,若GX≤CHb,则合并。合并后,还存在几个可能的文字列区域,从中选出可能文字列最多的区域为文字列区域。\n(9)文字图象区域边界调整首先,文字图象的部分笔划比较简单,如“T”水平方向的横,仅有两个边缘点,列方向的边缘点数量统计分割,可能会使其落在文字图象区域的外部,而使字符分割不完整。因此,在文字图象区域附近,列边缘点个数大于等于2的则并入文字图象区域。\n其次,可能文字图象列的间隔阈值为该区域的文字图象高度,这会使部分靠近文字区域的非文字图象目标被包含在文字图象区域内。因此,在列方向的开始和末尾进行再次分割调整。在起始和结尾处,CHb列的范围内可能的文字图象列数L必须满足Lb≥CHb2---(12)]]>(10)文字图象区域分割经过边界调整后,可以精确地分割出文字图象。\n本发明避免了颜色分割计算量大,分割精度低的问题,并有效地抑制了复杂背景的干扰,显著提高了文字图象的分割精度和算法执行速度。该文字图象分割方法具有如下优点:(1)避免彩色图象的颜色分割和二值化,利用灰度图象即可实现。(2)能同时准确分割出尺寸大小变化较大的文字,最大的文字尺寸是最小的5倍左右。(3)能准确分割不同结构的文字图象,如英文和中文。(4)能从复杂背景的图象中分割出文字图象,本算法能从自然场景和人造场景的背景中分割出文字图象。(5)算法简单,避免了颜色分割、二值化和中英文检测等处理步骤,因此运行速度快,执行时间少。\n附图说明\n图1本发明结构示意图具体实施方式如图1所示,结合本发明方法的内容提供以下实施例,具体如下:(1)在图书封面文字图象分割中,CCD摄像头拍摄的灰度图象,设置Canny算子的梯度阈值为0.2,检测灰度图象的边缘。\n(2)测量相邻边缘点的水平方向距离。\n(3)设定文字图象区域的相邻边缘点距离范围为[3,15],邻域为3×3大小的区域,相邻边缘点的距离波动范围为2,统计可能为文字的边缘点距离。\n(4)设定可能文字图象行的相邻边缘点距离数量的阈值T=9,检测出可能的文字图象行,经合并后形成文字图象行区域。设定文字图象行区域的高度阈值H=6,虑去伪文字图象行区域。\n(5)在各个文字图象行区域内,统计各行的边缘点数量,求得各区域相应的最小值后进行行边界调整,检测到精确的文字图象区域。\n(6)计算各个行区域的文字图象高度。\n(7)在各个文字图象行区域内,统计每一列图象像素的边缘点数量。\n(8)设定可能文字图象列边缘点数量的阈值TN=3,据此检测出可能的文字图象列。以检测到的各文字图象行区域的高度作为文字列合并的间隔阈值,将可能的文字图象列合并形成文字图象列区域。\n(9)根据文字图象列区域附近的文字图象列边缘点数量是否大于2,进行列边界的扩展调整。根据各文字图象列区域的起始和末尾处,可能文字图象列的数量大于该文字行区域高度的一半,进行边界压缩调整,这样就得到了边界调整得到精确的文字图象列区域。\n(10)经行和列的位置检测后,得到文字图象的区域范围,最终准确分割出文字图象。在Pentium IV 1.6GHz CPU,256M RAM的PC机上的运行时间为3.171秒。\n本发明避免了颜色分割计算量大,分割精度低的问题,并有效地抑制了复杂背景的干扰,显著提高了文字图象的分割精度和算法执行速度。
法律信息
- 2010-01-06
专利权的终止(未缴年费专利权终止)
专利权的终止(未缴年费专利权终止)授权公告日:2006.7.19
- 2006-07-19
- 2005-01-05
- 2004-11-03
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |