著录项信息
专利名称 | 一种复杂背景图像文字分割方法 |
申请号 | CN201210560199.4 | 申请日期 | 2012-12-20 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2013-03-13 | 公开/公告号 | CN102968637A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/46 | IPC分类号 | G;0;6;K;9;/;4;6;;;G;0;6;K;9;/;6;2查看分类表>
|
申请人 | 山东科技大学 | 申请人地址 | 山东省青岛市经济技术开发区前湾港路579号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 山东科技大学 | 当前权利人 | 山东科技大学 |
发明人 | 柏猛;李敏花;吕英俊 |
代理机构 | 济南圣达知识产权代理有限公司 | 代理人 | 张勇 |
摘要
本发明公开了一种复杂背景图像文字分割方法,主要包括以下步骤:进行图像读取;对读取的图像进行文字区域读取;对文字区域抽取底层颜色特征和底层纹理特征;对抽取出来的底层颜色特征和底层纹理特征进行融合得到底层局部特征;抽取文字区域的标签层全局特征;将文字区域的底层局部特征与文字区域的标签层全局特征进行融合得到文字区域所有像素的特征向量;对文字区域中所有像素特征向量训练得到第一级分割的分类器;用训练好的分类器进行第一级文字分割;对第一级分割的结果进行连通元标定;抽取连通元特征进行第文字分割;输出文字分割结果。本发明提高复杂背景图像中文字分割的准确率;具有一定的通用性和实用性。
1.一种复杂背景图像文字分割方法,其特征是,具体步骤如下:
步骤(1):开始,读取图像;
步骤(2):将图像中的文字区域块提取出来,并将文字块保存到相应位置;
步骤(3):判断是否所有的文字区域块提取完成,如果提取完成则进入步骤(4);如果未提取完成返回步骤(2);
步骤(4):在RGB颜色空间抽取文字区域块中每个像素点的颜色特征,得到6维局部颜色特征;如果所有像素点的颜色特征抽取完毕就进入步骤(5);
步骤(5):抽取文字区域块中每个像素点的纹理特征:首先将文字块转换为灰度图像,然后在灰度图像上抽取Gabor纹理特征,每个像素点得到6维纹理特征;
步骤(6):将6维颜色特征和6维纹理特征进行特征融合,得到12维图像底层局部特征;
步骤(7):提取文字区域块的标签层全局特征:将步骤(6)得到的12维图像底层局部特征送入分类器训练,用训练好的分类器分别对文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取每个像素点3×3邻域属于文字类和背景类的概率密度作为标签层全局特征,每个像素点共得到18维标签层全局特征,如果所有的像素点标签层全局特征抽取完毕就进入步骤(8);
步骤(8):判断是否所有像素点特征计算完成,如果完成则进入步骤(9);如果未完成则返回步骤(4);
步骤(9):将12维图像底层局部特征和18维标签层全局特征进行融合,每个像素点得到一个30维的特征向量;
步骤(10):利用条件随机场模型对文字块中每个像素点30维特征进行训练,得到用于第一级分割的分类器;
步骤(11):采用步骤(10)得到的分类器对文字区域中的像素进行分类,将文字区域块中的像素分为文字类和背景类,得到二值化的分割图像,实现文字区域的第一级粗分割;
步骤(12):对二值化的粗分割图像进行连通元标定,采用4连通标定法;
步骤(13):对步骤(12)标定好的每个连通元,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割;
步骤(14):输出文字分割结果。
2.如权利要求1所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(4)的颜色特征抽取方法为:
首先将图像分解为R、G、B三个颜色通道,对每个像素点抽取相应的R、G、B颜色分量和
8邻域像素R、G、B三个分量的均值。
3.如权利要求1所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(5)的Gabor纹理特征的抽取方法是:
在文字区域块的灰度图像上用一组同一频率不同方向不同尺度的Gabor滤波器进行滤波,然后将滤波后的图像按照公式 进行合并,其中,i表示尺度,
i
j表示方向,gabor表示尺度i的合并Gabor滤波图像, 表示尺度i方向j上的Gabor滤波图像,然后在滤波后的合并图像上抽取相应的纹理特征,抽取每个像素点3×3邻域Gabor系数的均值和方差作为每个像素点的纹理特征。
4.如权利要求1所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(7)中,标签层全局特征的抽取方法为:采用神经网络对训练文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3×3邻域属于文字类和背景类的概率密度作为标签层全局特征。
5.如权利要求1所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(10)中,第一级文字分割的分类器采用的是条件随机场模型;所述分类器训练采用极大似然估计方法,对模型中的参数进行估计。
6.如权利要求1所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(11)中,利用第一级文字分割分类器对文本进行粗分割步骤是:将步骤(10)训练出的模型参数带入第一级文字分割的分类器中,根据式 求每个像素点的最大边
缘后验概率,式中Yi表示像素点位置i处的类别标签,Yi∈(0,1),0表示背景类,1表示文字类,X为图像底层特征,L为图像标签层全局特征,然后根据最大边缘后验概率判断每个像素点的属于文字类还是背景类,最后得到文字区域图像的第一级分割结果。
7.如权利要求1所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(13)中,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割,所用到的文字连通元与背景连通元在尺度、颜色方面的特性差异特征包括:连通元的尺寸、连通元投影、连通元边界颜色渐变情况。
一种复杂背景图像文字分割方法\n技术领域\n[0001] 本发明涉及图像处理领域中的图像分割技术,尤其涉及一种复杂背景图像文字分割方法。\n背景技术\n[0002] 随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用,图像中信息越来越引起人们的关注,然而计算机理解图像的内容,目前还很困难。嵌入在图像中的文字,是图像语义内容的一种重要表达方式。如果能够自动提取和识别这些文字,就可以让机器自动理解图片内容并对图片进行分类,进而借助已经成熟的文本检索技术采用这些文字对图片进行标注和检索,从而为基于内容的图像和视频检索提供一种途径。然而,嵌入在图像中的文字通常都带有复杂背景,即使文本内容在图像中能被准确检测到,在没有去除背景之前,现有的OCR系统难以识别出字符,因而在提交给OCR系统之前还需要一个文字分割过程。因此,如何从复杂背景图像中分割文本信息,成为以文字为线索来理解和检索图像内容的一个关键任务。\n[0003] 现有的图像文字分割技术主要分为以下三类:基于阈值的方法、基于聚类的方法和基于统计模型的方法。\n[0004] 基于阈值的方法一般根据文字块中前景和背景的亮度分布自适应地选取一个全局阈值或自适应局部阈值。在图像背景比较单一时该类方法能取得较好的效果;当文字具有较复杂的背景,例如文字的灰度可能介于背景的多个灰度之间时,阈值法不再适用。\n[0005] 基于聚类的方法一般首先假定文字块中所有像素根据颜色可以分为K类,文字像素对应于其中一类,其余各类均为背景;然后采用经典的无监督聚类算法对所有像素进行聚类。这类方法可用于复杂背景的情况。但当背景中含有与文字颜色相同或相近的成分时,这些成分会被误分入文字类,从而产生大量的残余背景,影响OCR识别。\n[0006] 基于统计模型的方法首先为文字块内所有像素或者文字像素建立概率模型,一般根据颜色建立高斯混合模型(Gaussian Mixture Model,GMM),所有同色区域用一个Gaussian核函数表示。然后使用EM算法估计模型参数,最后根据最大似然准则确定每个区域的类别。由于单纯地利用了颜色信息,GMM模型存在着与聚类方法同样的问题,而且GMM核函数的个数难以确定。\n[0007] 上述各种文字分割方法,只利用了图像底层局部的灰度或彩色信息,没有考虑到文字的空间或全局上下文信息。因而,对复杂背景中的文字分割效果不好。\n发明内容\n[0008] 本发明的目的就是为了解决上述问题,提供一种复杂背景图像文字分割方法,根据复杂背景图像中文字信息的特点,融合图像底层的局部颜色、纹理特征和标签层全局特征,并采用由粗到精两级分割的方法,从而提高复杂背景图像文字分割的准确率。该方法对背景简单图像和背景复杂图像均具有较好的分割效果,具有一定的通用性和实用性。\n[0009] 为了实现上述目的,本发明采用如下技术方案:\n[0010] 一种复杂背景图像文字分割方法,主要包括以下步骤:进行图像读取;对读取的图像进行文字区域读取;对读取的文字区域进行底层颜色特征抽取;对抽取过底层颜色特征的文字区域进行底层纹理特征抽取;对抽取出来的文字区域的底层颜色特征和底层纹理特征进行融合得到文字区域的底层局部特征;对文字区域的底层局部特征进行粗分类,然后在粗分类的结果上抽取文字区域的标签层全局特征;将文字区域的底层局部特征与文字区域的标签层全局特征进行融合得到文字区域所有像素的特征向量;对文字区域中所有像素特征向量进行训练得到第一级文字分割的分类器;用训练好的分类器对图像的特征分类,实现第一级文字分割;对第一级分割的结果进行连通元标定;抽取连通元特征,利用文字连通元与背景连通元的特征差异,进行连通元筛选,去除背景连通元,实现第二级文字分割;输出文字分割结果。\n[0011] 一种复杂背景图像文字分割方法,具体步骤如下:\n[0012] 步骤(1):开始,读取图像;\n[0013] 步骤(2):将图像中的文字区域块提取出来,并将文字区域块保存到相应位置;\n[0014] 步骤(3):判断是否所有的文字区域块提取完成,如果提取完成则进入步骤(4);如果未提取完成返回步骤(2);\n[0015] 步骤(4):在RGB颜色空间抽取文字区域块中每个像素点的颜色特征,得到6维底层局部颜色特征;如果所有像素点的颜色特征抽取完毕就进入步骤(5);\n[0016] 步骤(5):抽取文字区域块中每个像素点的纹理特征:首先将文字区域块转换为灰度图像,然后在灰度图像上抽取Gabor纹理特征,每个像素点得到6维底层局部纹理特征;\n[0017] 步骤(6):将6维颜色特征和6维纹理特征进行特征融合,得到12维图像底层局部特征;\n[0018] 步骤(7):提取文字区域块的标签层全局特征。将步骤(6)得到的12维图像底层局部特征送入分类器训练,用训练好的分类器分别对文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3×3邻域属于文字类和背景类的概率密度作为标签层全局特征,每个像素点共 得到18维标签层全局特征,如果所有的像素点标签层全局特征抽取完毕就进入步骤(8);\n[0019] 步骤(8):判断是否所有像素点特征计算完成,如果完成则进入步骤(9);如果未完成则返回步骤(4);\n[0020] 步骤(9):将12维图像底层局部特征和18维标签层全局特征进行融合,每个像素点得到一个30维特征向量;\n[0021] 步骤(10):利用条件随机场模型对文字块中每个像素点30维特征向量进行训练,得到进行第一级文字分割的分类器;\n[0022] 步骤(11):采用步骤(10)得到的分类器对文字区域中的像素进行分类,将文字区域块中的像素分为文字类和背景类,得到二值化的分割图像,实现文字区域的第一级粗分割;\n[0023] 步骤(12):对二值化的粗分割图像进行连通元标定,采用4连通标定法;\n[0024] 步骤(13):对步骤(12)标定好的每个连通元,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割。本发明主要利用文字连通元与背景连通元在尺度、颜色方面的特性差异去除背景连通元,得到最终的文字分割结果;\n[0025] 步骤(14):输出文字分割结果。\n[0026] 所述步骤(4)的颜色特征抽取方法为:\n[0027] 首先将彩色图像分解为R、G、B(红、绿、蓝)三个颜色通道,对每个像素点抽取相应的R、G、B颜色分量和8邻域像素R、G、B三个分量的均值。\n[0028] 所述步骤(5)的Gabor纹理特征的抽取方法是:\n[0029] 在文字区域块的灰度图像上用一组同一频率不同方向不同尺度的Gabor滤波器进行滤波,然后将滤波后的图像按照公式 进行合并,其中,i表示\ni\n尺度,j表示方向,gabor表示尺度i的合并Gabor滤波图像, 表示尺度i方向j上的Gabor滤波图像,然后在滤波后的合并图像上抽取相应的纹理特征,抽取每个像素点的\n3×3邻域Gabor系数的均值和方差作为每个像素点的纹理特征。\n[0030] 本发明采用3个尺度,在每个尺度上抽取2维Gabor特征,所以在3个尺度上共抽取6维Gabor特征。\n[0031] 所述步骤(7)中,标签层全局特征的抽取方法为:采用神经网络对训练文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3×3邻域属于文字类和背景类的概率密度作为标签层全局特征;因此,对于每个像素点可得到2×3×3=18维标签层全局特征。\n[0032] 所述步骤(10)中,第一级文字分割中分类器采用的是条件随机场模型;\n[0033] 所述条件随机场模型描述的图像的类条件概率密度为:\n[0034] \n[0035] 其中,Vi(yi,X)为图像底层一元势函数,Vij(yi,yj,X)为图像底层二元势函数,Gij(yi,yj,L)为标签层二元势函数。i,j为图像的像素点位置,yi,yj分别为图像像素点位置i,j处的类别标签,X为图像低层的特征向量,L为标签层的特征向量,Y为图像的类别标签,S为图像中所用像素点集合,Ni为像素点i的邻域像素集合,P(Y|X,L)为图像的类条件概率密度。\n[0036] 分类器训练采用极大似然估计方法,对模型中的参数进行估计:\n[0037] \nk k k k\n[0038] 其中x是第k个训练样本的底层特征,y 是x 的类别标签,l 为第k个训练样本的标签层特征,N是训练样本的数量,k∈(1,2,……N)。\n[0039] 所述步骤(11)中,利用分类器的对文本进行第一级粗分割步骤是:将步骤(9)训练出的模型参数带入第一级分割的分类器中,根据式 求每个像\n素点的最大边缘后验概率,式中式中Yi表示像素点位置i处的类别标签,Yi∈(0,1),0表示背景类,1表示文字类,X为图像底层特征,L为图像标签层全局特征,然后根据最大边缘后验概率判断每个像素点的属于文字类还是背景类,最后得到文字区域块图像的第一级粗分割结果。\n[0040] 所述步骤(13)中,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割,所用到的文字连通元与背景连通元在尺度、颜色方面的特性差异特征包括:连通元的尺寸、连通元投影、连通元边界颜色渐变情况。\n[0041] 本发明的有益效果:本发明根据复杂背景图像中文字信息的特点,融合图像底层的局部颜色、纹理特征和标签层全局特征,采用由粗到精两级分割的方法,能够提高复杂背景图像中的文字分割的准确率。该方法对背景简单图像和背景复杂图像均具有较好的分割效果,具有一定的通用性和实用性。该发明的成果可直接应用于基于内容的图像检索,图像分类等领 域,具有广阔的应用前景。\n附图说明\n[0042] 图1是本发明一种复杂背景图像文字分割方法方案流程图。\n具体实施方式\n[0043] 下面结合附图与实施例对本发明作进一步说明。\n[0044] 实现本发明的系统结构所需的基本的硬件条件为:一台主频为2.4GHZ,内存为1G的计算机,所需软件条件为:编程环境为Visual C++6.0。\n[0045] 一种复杂背景图像文字分割方法,具体步骤如下:\n[0046] 步骤(1):开始,读取图像;\n[0047] 步骤(2):将图像中的文字区域块提取出来,并将文字块保存到相应位置;\n[0048] 步骤(3):判断是否所有的文字区域块提取完成,如果提取完成则进入步骤(4);如果未提取完成返回步骤(2);\n[0049] 步骤(4):在RGB颜色空间抽取文字区域块中每个像素点的颜色特征,得到6维底层局部颜色特征;如果所有像素点的颜色特征抽取完毕就进入步骤(5);\n[0050] 步骤(5):抽取文字区域块中每个像素点的纹理特征,首先将文字区域块转换为灰度图像,然后在灰度图像上抽取Gabor纹理特征,每个像素点得到6维底层局部纹理特征;\n[0051] 步骤(6):将6维颜色特征和6维纹理特征进行融合,得到12维图像底层局部特征;\n[0052] 步骤(7):提取文字区域块的标签层全局特征,将12维图像底层局部特征送入分类器训练,用训练好的分类器分别对文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算该像素点属于文字类和背景类的概率密度,然后抽取每个像素点3×3邻域属于文字类和背景类的概率密度作为标签层全局特征,每个像素点共得到18维标签层全局特征,然后抽取标签层全局特征,每个像素点共得到18维标签层全局特征,所有的像素点标签层全局特征抽取完毕后进入步骤(8);\n[0053] 步骤(8):判断是否所有像素点特征计算完成,如果完成则进入步骤(9);如果未完成则返回步骤(4);\n[0054] 步骤(9):将12维图像底层局部特征和18维标签层全局特征进行融合,每个像素点得到一个30的维特征向量;\n[0055] 步骤(10):利用条件随机场模型对文字块中每个像素点30维特征向量进行训练,得到用于第一级文字分割的分类器;\n[0056] 步骤(11):采用步骤(10)得到的分类器对文字区域中的像素进行分类,将文字区域块 中的像素分为文字类和背景类,得到二值化的分割图像,实现文字区域的第一级粗分割;\n[0057] 步骤(12):对粗分割的二值化图像进行连通元标定,采用4连通标定法;\n[0058] 步骤(13):对步骤(12)标定好的每个连通元,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割。本发明主要利用文字连通元与背景连通元在尺度、颜色方面的特性差异去除背景连通元,得到最终的文字分割结果;\n[0059] 步骤(14):输出文字分割结果。\n[0060] 所述步骤(4)的颜色特征抽取方法为:\n[0061] 首先将图像分解为R、G、B三个颜色通道,对每个像素点抽取相应的R、G、B颜色分量和8邻域像素R、G、B三个分量的均值。\n[0062] 所述步骤(5)的Gabor纹理特征的抽取方法是:\n[0063] 在文字区域块的灰度图像上用一组同一频率不同方向不同尺度的Gabor滤波器进行滤波,然后将滤波后的图像按照公式 进行合并其中i表示尺\ni\n度,j表示方向,gabor表示尺度i的合并Gabor滤波图像, 表示尺度i方向j上的Gabor滤波图像,然后在滤波后的合并图像上抽取相应的纹理特征,抽取每个像素点的\n3×3邻域Gabor系数的均值和方差作为每个像素点的纹理特征。\n[0064] 本发明采用3个尺度,在每个尺度上可抽取2维Gabor特征,所以在3各尺度上共抽取6维Gabor特征。\n[0065] 步骤(5-1):首先将彩色图像转换为灰色图像;\n[0066] 步骤(5-2):在灰度图像上用同一频率Gabor滤波器分别在8个方向(0°、30°、\n45°、60°、90°、120°、135°、150°)和3个尺度上进行滤波(滤波尺度分别为6×6,\n8×8,10×10);\n[0067] 步骤(5-3):对每个尺度Gabor滤波后的输出图像,采用如下公式获得合并滤波图像:\n[0068] \n[0069] 其中i表示尺度,j表示方向,gabori表示尺度i的合并Gabor滤波图像, 表示尺度i方向j上的Gabor滤波图像。\n[0070] 步骤(5-4):对于每幅图像,在每个尺度上可获得一幅合并Gabor滤波图像。在合并的Gabor滤波图像上对每个像素点的3×3邻域抽取相应的纹理特征。\n[0071] 步骤(5-5):在每个像素点的3×3邻域抽取Gabor系数均值和方差作为每个像素点的纹理特征。在每个尺度上可抽取2维Gabor特征,所以在3各尺度上共抽取6维Gabor特征。\n[0072] 所述步骤(7)中,标签层全局特征的抽取方法为:采用神经网络对训练文字区域块中的每个像素点进行分类,得到文字区域的整体粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3×3邻域对于文字类和背景类的概率密度作为标签层全局特征。因此,对于每个像素点可得到2×3×3=18维标签层全局特征。\n[0073] 步骤(7-1):首先初始化神经网络,神经网络的输入节点数目为图像底层颜色、纹理特征的数目,共12维;输出结点数目为该像素属于文本和非文本的条件概率密度,为2维;隐层节点数为15;初始化权值采用-1和+1之间的随机数。\n[0074] 步骤(7-2):用训练样本训练神经网络,求出神经网络的参数。\n[0075] 步骤(7-3):用训练好的神经网络对样本中的每个像素点进行分类,得到像素点属于文字类和背景类的概率密度。\n[0076] 步骤(7-4):对于每个像素点,统计其3×3邻域对于文字类和背景类的概率密度作为标签层全局特征。因此,对于每个像素点可得到2×3×3=18维标签层全局特征。\n[0077] 所述步骤(10)中,第一级文字分割中所用的分类器的训练步骤是:\n[0078] 将30维特征作为输入的学习样本,则用于第一级分类的条件随机场模型可表示为:\n[0079] \n[0080] 其中,Vi(yi,X)为图像底层一元势函数,Vij(yi,yj,X)为图像底层二元势函数,Gij(yi,yj,L)为标签层二元势函数。i,j为图像的像素点位置,yi,yj分别为图像像素点位置i,j处的类别标签,X为图像低层的特征向量,L为标签层的特征向量,Y为图像的类别标签,S为图像中所用像素点集合,Ni为像素点i的邻域像素集合,P(Y|X,L)为图像的类条件概率密度。\n[0081] 其中,\n[0082] \n[0083] \n[0084] 其中, yi为像素位置i处的类别标签,ω为\n参数向量,ω=(α0,ω1,ω2,…ωn),n为底层特征向量的维数,α0是一偏置值,fi(X)为像素点i处的特征向量,第一个值为1与偏置参数α0对应。\nT\n[0085] Vij(yi,yj,X)=yiyjvuij(X) (2)\nT\n[0086] 其中,yi和yj为像素点i和j的类别标签,v=[α1,v1,v2…vn]为参数向量,n为底层特征向量的维数,α1为偏置值, 第一个值为1与偏置值α1相\n对应。 表示像素点对i和j的特征向量,\n[0087] \n[0088] 其中,fi(X)和fj(X)分别为像素点i、j的特征向量,dij表示像素点位置i、j底层特征向量的距离。\n[0089] Gij(yi,yj,L)=yiyjγTgij(L) (3)\n[0090] 其中,yi和yj为像素点i和j的类别标签,γ=[α2,γ1,γ2…γm]T为参数向量,T\nm为标签层全局特征向量的维数,α2为偏置值,gij(L)=[1,δij(L)],δij(L)定义为两位置之间向量之间的距离,即\n[0091] δij(L)=||d′ij||=||f′i(L)-f′j(L)||\n[0092] f′i(L),f′j(L)分别为位置点i,j的标签域特征向量,d′ij为图像位置点i,j的标签域特征向量之间的距离。\n[0093] 分类器训练的目的就是在给定一组训练样本的情况下,寻找势函数中最优的参数向量θ=(ω,v,γ),ω,v,γ分别为式(1)、(2)、(3)中的参数。给定训练集D=k k k k k\n{x,l,y}, 样本是相互独立的,其中x是第k个训练样本的底层特征,l\n为第k个训练样本的标签层特征,yk是xk的类别标签,N是训练样本的数量。\n[0094] 采用极大似然估计方法,对参数θ=(ω,v,γ)进行估计:\n[0095] \n[0096] 其中θ*为采用极大似然估计方法估计的参数。\n[0097] 最大似然估计的任务就是使用对数似然函数L(θ)来估计参数θ=(ω,v,γ)的值,L(θ)表达 式为\n[0098] \n[0099] 使得该训练样本集的似然函数达到最大:\n[0100] \n[0101] 其中θML为使用对数似然函数估计出的参数。\n[0102] 所述步骤(11)中,利用第一级分割的分类器对文字进行粗分割步骤是:将步骤(9)训练出的模型参数带入模型中,根据式 求每个像素点的最\n大边缘后验概率,式中Yi表示像素点位置i处的分类标签,Yi∈(0,1),0表示背景类,1表示文字类,X为图像底层特征,L为图像标签层全局特征,然后根据最大边缘后验概率判断每个像素点的属于文字类还是背景类,最后得到文字区域图像的第一级粗分割结果。\n[0103] 所述步骤(13)中,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割,所用到的文字连通元与背景连通元在尺度、颜色方面的特性差异特征包括:连通元的尺寸,连通元投影,连通元边界颜色渐变情况。\n[0104] 所用到的文字连通元与背景连通元在尺度、颜色方面的特性差异特征包括:检查其尺寸和位置,将尺寸明显超出字符及其笔画的尺寸范围的连通分量作为背景去掉;通过投影,将位置较偏、落在文字块的边界附近从而不可能是文字笔画的连通分量也去掉。根据连通分量的边界上的像素在原文字块中发生颜色跳变的剧烈程度,来去除一部分在原文字块中处于颜色渐变区域中的残余背景连通分量。\n[0105] 上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
法律信息
- 2020-11-27
未缴年费专利权终止
IPC(主分类): G06K 9/46
专利号: ZL 201210560199.4
申请日: 2012.12.20
授权公告日: 2015.06.03
- 2015-06-03
- 2013-04-10
实质审查的生效
IPC(主分类): G06K 9/46
专利申请号: 201210560199.4
申请日: 2012.12.20
- 2013-03-13
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |