著录项信息
专利名称 | 一种用于联机手写汉字识别的汉字笔画特征提取方法 |
申请号 | CN200910041047.1 | 申请日期 | 2009-07-10 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2009-12-16 | 公开/公告号 | CN101604393 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/46 | IPC分类号 | G;0;6;K;9;/;4;6查看分类表>
|
申请人 | 华南理工大学 | 申请人地址 | 广东省广州市天河区五山路381号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 华南理工大学 | 当前权利人 | 华南理工大学 |
发明人 | 金连文;邓国强 |
代理机构 | 广州粤高专利商标代理有限公司 | 代理人 | 何淑珍 |
摘要
本发明提供一种用于联机手写汉字识别的汉字笔画特征提取方法,其方法主要通过对联机手写汉字的时间序列进行真实笔画和虚拟笔画处理,进而提取用于文字识别的笔画特征。本发明融合联机手写汉字的虚拟笔画特征和无虚拟笔画特征,采用融合后的特征进行联机手写体识别,可以大大提高对连笔草书汉字的识别效果,不仅能识别规范书写的汉字,也能够对连笔草书汉字进行识别,故而可以让用户无限制地自由书写汉字。
1.一种用于联机手写汉字识别的汉字笔画特征提取方法,其特征在于包括如下步骤:
(1)对联机手写汉字的时间序列进行真实笔画和虚拟笔画处理,定义虚拟笔画为从一个真实笔画的结束点到下一个真实笔画的开始点的一条虚直线,在所有相邻且断开的真实笔画间加入虚拟笔画,构成一个连续的书写轨迹,得到有虚拟笔画的时间序列,同时保留不添加任何虚拟笔画点的时间序列副本,即无虚拟笔画的时间序列;
(2)根据步骤(1)得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列,对属于真实笔画的点和属于虚拟笔画的点加以区分,即记下每个点是属于真实笔画点还是虚拟笔画点;
(3)对步骤(2)的两个时间序列,采用如下方法产生最终的笔画特征:
(31)定义二维平面内的八种方向,即东、西、南、北、东南、西南、东北和西北,计算每个时间序列中每一点的方向特征,点的方向特征定义从当前点的前驱到后续的一个矢量,令属于真实笔画的点的特征矢量,则将 改变成 k是对真实笔画点的特征矢量的一个加权系数;如果 是属于虚拟笔画的点的特征矢量,则 保持不变;最后将加权处理后的每一点的方向特征映射到平面内的八个方向,得到八个方向的模式图像,映射的方法是分解点特征矢量到最邻近的两个方向;
(32)把每个时间序列看成一幅图像,通过把汉字图像在水平和垂直两个方向上的直方图投影画出8x8的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,根据这64个弹性网格,在步骤(31)中得到八个模式图像中提取网格特征,每一个序列都可以得到512维的特征矢量。
2.根据权利要求1所述的汉字笔画特征提取方法,其特征在于所述步骤(1)在进行真实笔画和虚拟笔画处理之前还包括对联机手写汉字的时间序列进行如下的预处理步骤:
线性归一化,用比值线性归一化的方法,把时间序列归一化到固定的64×64像素的尺寸。
3.根据权利要求1所述的汉字笔画特征提取方法,其特征在于所述步骤(1)在进行真实笔画和虚拟笔画处理之后还包括对得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列进行重采样,将每个样本的数据采样点序列用固定的距离重新采样。
一种用于联机手写汉字识别的汉字笔画特征提取方法\n技术领域\n[0001] 本发明属于联机手写汉字识别技术领域,特别是涉及一种用于联机手写汉字识别的笔画特征提取方法。\n技术背景\n[0002] 联机手写汉字识别是指用户一边书写一边识别。一般是指用户通过手写输入设备(比如:手写板、触摸屏、鼠标等)书写汉字,同时计算机将手写输入设备采集到的汉字书写轨迹转换为相应的汉字机器内码的识别技术。按书写限制的程度,一般可以分为:限制性手写体(如限制笔顺,横平竖直,没有连笔),手写印刷体(指书写工整的汉字),行书手写体(指有部分笔画变形和连笔的汉字),草书手写体(指大部分笔画变形以及几乎完全连笔书写的汉字)。这几种手写体的识别难度依次增大,以草书手写体的识别难度最大。因为草书手写体的汉字字型通常已经和原汉字字形有了较大的不同,不仅表现在笔画的变形上,还表现在汉字结构的变形上。这些变形一般是由于书写者为了达到更快、更流畅的书写速度而在原有汉字字形的基础上改变而来的。因此在以上几种手写体汉字中,以草书手写体的书写速度最快,因而这种书写方式也是人们最乐于接受的一种书写方式。\n[0003] 已有的汉字识别方法大多数是基于汉字笔画来进行识别的,比如中国发明专利\n98106953.3号专利《手写汉字识别方法及装置》、98108373.0号专利《文字识别装置及文字识别方法》以及98122949.2号专利《一种无笔画顺序的手写字符辨识系统》等专利使用的方法都依赖于笔画的正确提取与识别,而草书手写体汉字不但连笔书写,大部分笔画变形严重,而且有很多短的笔画会被省去,因此以上识别方法无法很好地解决草书手写体汉字的识别。\n[0004] 目前,识别草书手写体汉字的一种比较有效的方法是,对联机手写汉字使用虚拟笔画技术后再提取汉字的点特征。虚拟笔画技术最早由日本学者M.Okamoto等人提出,方法是采用虚拟的点将所有笔画连接在一起,目的是模拟人的草书习惯,统一手写汉字的风格。虚拟笔画技术虽然起到一定效果,但已经被证实会损失相当一部分汉字的识别率,有待改进。\n发明内容\n[0005] 本发明的目的在于克服现有技术的不足,提供一种使得识别结构精确度较高的用于联机手写汉字识别的笔画特征提取方法,特别是用于联机手写草书字体识别的笔画特征提取方法。\n[0006] 为了实现上述发明目的,采用的技术方案如下:\n[0007] 一种用于联机手写汉字识别的汉字笔画特征提取方法,包括如下步骤:\n[0008] (1)对联机手写汉字的时间序列进行真实笔画和虚拟笔画处理,即在所有相邻且断开的真实笔画间加入虚拟笔画,构成一个连续的书写轨迹,得到有虚拟笔画的时间序列,同时保留不添加任何虚拟笔画点的时间序列副本,即无虚拟笔画的时间序列;\n[0009] (2)根据步骤(1)得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列,对属于真实笔画的点和属于虚拟笔画的点加以区分,即记下每个点是属于真实笔画点还是虚拟笔画点;\n[0010] (3)对步骤(2)的两个时间序列,采用如下方法产生最终的笔画特征:\n[0011] (31)定义二维平面内的八种方向,即东、西、南、北、东南、西南、东北和西北,计算每个时间序列中每一点的方向特征,点的方向特征定义从当前点的前驱到后续的一个矢量,令 属于真实笔画的点的特征矢量,则将 改变成 k是对真实笔画点的特征矢量的一个加权系数;如果 是属于虚拟笔画的点的特征矢量,则 保持不变;最后将加权处理后的每一点的方向特征映射到平面内的八个方向,得到八个方向的模式图像,映射的方法是分解点特征矢量到最邻近的两个方向;\n[0012] (32)把每个时间序列看成一幅图像,通过把汉字图像在水平和垂直两个方向上的直方图投影画出8×8的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,根据这64个弹性网格,在步骤(31)中得到八个模式图像中提取网格特征,每一个序列都可以得到512维的特征矢量。\n[0013] 本发明所述步骤(1)在进行真实笔画和虚拟笔画处理之前还包括对联机手写汉字的时间序列进行如下的预处理步骤:\n[0014] 线性归一化,用比值线性归一化的方法,把时间序列归一化到固定的64×64像素的尺寸。预处理步骤是为了消除不同用户书写同一汉字的区别,对于不同的用户,书写出来的同一个汉字会有很大的不同,预处理的目的是尽可能去除同一类别中不同汉字样本的差别。\n[0015] 本发明所述步骤(1)在进行真实笔画和虚拟笔画处理之后还包括对得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列进行重采样,将每个样本的数据采样点序列用固定的距离重新采样。重采样的目的是减少归一化后汉字样本数据中连续点的距离的变化和一个笔画的采样点的数目变化。同样可消除不同用户书写同一汉字的区别。\n[0016] 本发明与已有的联机手写汉字特征提取方法相比,具有如下的优点和有益效果:\n[0017] (1)、融合了手写汉字虚拟笔画特征和无虚拟笔画特征,使得融合后的新特征更能够代表所书写的汉字,因此能很好地解决当前虚拟笔画技术容易造成相当一部分汉字识别性能下降的问题;\n[0018] (2)、采用本发明的方法提取到的融合的特征具有更优异的性能,通过不同的分类器测试,结果显示本发明更加准确识别连笔草书。\n附图说明\n[0019] 图1是本发明的特征提取方法流程框图。\n具体实施方式\n[0020] 下面结合附图对本发明做进一步的说明。\n[0021] 实施本发明所用的识别设备可以采用手写板书写汉字,用计算机进行识别,用纯平型显示器显示用户图形界面,可采用C/C++语言编制各类处理程序,便能较好地实施本发明。\n[0022] 本发明的手写汉字特征提取方法如附图1所示。\n[0023] 首先对联机手写汉字进行预处理。所述方法采取的预处理步骤如下:\n[0024] (I)线性归一化。用比值线性归一化的方法,把样本的时间序列归一化到固定的\n64×64像素的尺寸;\n[0025] (II)添加虚拟笔画点序列。定义虚拟笔画为从一个真实笔画的结束点到下一个真实笔画的开始点的一条虚直线。在所有相邻且断开的真实笔画间加入虚拟笔画,构成一个连续的书写轨迹,得到有虚拟笔画的时间序列;同时保留不添加任何虚拟笔画点的时间序列副本,即无虚拟笔画的时间序列。对属于真实笔画的点和属于虚拟笔画的点加以区分,即记下每个点是属于真实笔画点还是虚拟笔画点。\n[0026] (III)对步骤(II)得到的时间序列进行重采样。每个样本的数据采样点序列用固定的距离重新采样。\n[0027] 然后,采用称之为局部特征增强的方法,对预处理后的时间序列提取融合虚拟笔画和无虚拟笔画技术的手写汉字的特征,提取方法如下:\n[0028] (1)定义二维平面内有八种方向,东、西、南、北,东南、西南、东北和西北。计算序列中每一点的方向特征,点的方向特征定义从当前点的前驱到后续的一个矢量。设 是属于真实笔画的点的特征矢量,则将 改变成 这里k是对真实笔画点的特征矢量的一个加权系数;如果 是属于虚拟笔画的点的特征矢量,则 保持不变。加权系数k的取值可以通过多次实验得出。最后将加权处理后的每一点的方向特征映射到平面内的八个方向,得到八个方向的模式图像。映射的方法是分解点特征矢量到最邻近的两个方向。\n[0029] (2)把每个序列看成一幅图像,通过把汉字图像在水平和垂直两个方向上的直方图投影画出8×8的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,根据这64个弹性网格,在步骤(1)中得到八个模式图像中提取网格特征。最后,每一个序列都可以得到512维的特征矢量。\n[0030] 本发明的优异性能通过大样本和大类别的实验得到了证实。下面描述采用本发明所述的特征提取方法,对大量联机手写汉字样本的进行相关实验的结果\n[0031] 实验采用了华南理工大学人机通信与智能接口实验室的SCUT-COUCH联机手写样本数据库中的GB2312-80一二级汉字样本子集。该子集包含168位不同书写者的汉字样本,每位书写者在自然状态下独立完成6763个GB2312-80一二级汉字的书写。实验对6763个汉字类别进行测试,每个类别有168套样本。每个类随机选取134套样本(占每类总样本数的80%)进行训练,总训练样本数为906,242个;余下34套样本用于测试,总的测试样本数目为229,942个。\n[0032] 在实验中,同时测试了三种与虚拟笔画技术相关的手写汉字特征提取方法的识别率,分别是传统的无虚拟笔画特征提取方法,传统的虚拟笔画特征提取方法,以及本发明的融合虚拟笔画及无虚拟笔画技术的特征提取方法,识别采用的分类器为最小欧氏距离分类器。\n[0033] 表1三种手写汉字特征提取方法识别率比较\n[0034] \n特征提取方法 原始特征识别率(%) LDA训练后识别率(%)\n传统的无虚拟笔画特征 82.66 87.78\n传统的虚拟笔画特征 87.16 89.95\n本发明的局部加权特征 89.41 91.45\n[0035] 由表1可以看到,采用本发明提出的特征提取方法,其识别率明显高于传统的不加虚拟笔画的手写汉字特征,和仅采用虚拟笔画的手写汉字特征,因此,实验结果显示了本发明所述的方法获得的手写汉字特征在性能方面,是明显优于传统的无虚拟笔画特征或者虚拟笔画特征的。
法律信息
- 2015-09-02
未缴年费专利权终止
IPC(主分类): G06K 9/46
专利号: ZL 200910041047.1
申请日: 2009.07.10
授权公告日: 2011.08.31
- 2011-08-31
- 2010-02-10
- 2009-12-16
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2007-02-28
|
2006-09-08
| | |
2
| |
2005-08-10
|
2005-02-08
| | |
3
| |
2001-11-28
|
2001-03-29
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |