著录项信息
专利名称 | 自由书写联机手写汉字识别方法及其系统 |
申请号 | CN93101683.5 | 申请日期 | 1993-02-25 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 1993-09-01 | 公开/公告号 | CN1075811 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | 暂无 | IPC分类号 | 暂无查看分类表>
|
申请人 | 清华大学 | 申请人地址 | 北京市海淀区清华园
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 清华大学 | 当前权利人 | 清华大学 |
发明人 | 夏莹;杨阳;孙承鉴;张大华;龚军平;马少平;杨泽红 |
代理机构 | 清华大学专利事务所 | 代理人 | 廖元秋 |
摘要
本发明属于模式识别和人工智能技术领域。其特点是先采用识别楷书和部分行书的基于汉字笔划基元有容错能力的句法结构分析方法得到识别结果,若“拒识”则再用识别不规范连笔字的基于字型的统计联机识别方法得到识别结果。本发明可以识别楷书、行书及识别不规范的手写连笔字。识别范围是手写简体汉字,手写繁体汉字,数字和西文等。使用本发明不必记忆任何编码,不需进行训练,不改变人们书写汉字的习惯,是非常方便的汉字输入方法。
本发明属于模式识别和人工智能技术领域。\n便携式计算机的发展已引起各界人士的高度重视。计算机之所以不能做得太小,其原因在于受人眼和手指的限制,解决的办法是以笔来代替键盘,其系统由手写输入板、微型计算机、显示器和打印机各部分所组成,如图1所示。用户持笔在输入板上写字,笔运动的轨迹送入计算机,由计算机进行手写字的识别经显示器显示,由打印机输出。便携式计算机可做成一本书的大小,输入板可采用敏感数字化板,如电磁感应型的,压敏型的,平面电阻型的及触摸型的。显示器可采用液晶显示器,它与数字化板联在一起,使用该计算机就如同在书本上写字一样,边写,边显示,这种输入方式被认为是最自然的最容易操作的方式,用户不必记忆任何编码,不需进行训练,不改变人们的写字的习惯。计算机自动识别手写数字、字母和汉字,达到操作和编辑的目的。这种计算机又称之为手写识别计算机或笔式计算机。这种计算机的关键技术是自由书写联机手写汉字识别技术,即允许用户自由书写,能适应连笔和断笔现象。\n联机识别手写汉字方法的已有技术,其要点是:汉字的笔划由笔段构成,利用笔段的长度信息,借助一种模糊信息处理方法-模糊属性文法及其相应的模糊属性自动机来识别笔划,这种方法在句法形式上是有限状态文法,但在语文规则中包括上下文的信息。为了解决不同笔顺的联机手写汉字的识别问题,是利用汉字字形结构的排序方法,把二维空间的笔段在一维空间排出稳定的次序。将所有楷书的笔划分解成十一种广义笔段( ),这十一种广义笔段中又以一,\,/,\,四种最为基本。各笔段组成汉字时相互之间的位置关 系可分成两大类:即连接与分离,笔段间的交叉关系可看成连接,即中点和中点的连接。连接关系有九种,分离关系有八种。反映该项技术的文献如:\n1.“在线手写汉字识别的字形结构排序法”,刘迎健、戴汝为,自动化学报Vol.14.No.3.1988.P207-214。\n2.“识别在线手写汉字的模糊属性自动机”,刘迎键、戴汝为,自动化学报Vol.14.No.2.1988。P97-104\n3.“on-line Recognition of Handwritten characters-Alphanumerics,Hiragana,katakana,kanzi”,Hiroki Arakawa,Pattern Recognition,Vol.16,No.1.1983.P9-21\n4.“On-line Recognition of Handwritten Characters by Appriximating Each stroke with Several Points”,KAZUMI ODAKA,and soon,IEEE Trans.on systems,Man and Cybernetis,Vol.SMC-12,No.6.Nov/dec.1982.\n这种方法的不足之处是:不能解决不规范的手写行书及字根之间的连笔字,对于分解不出笔段的汉字就很难处理了。只能识别楷书及字根间能分割清楚的部分行书。\n本发明旨在克服上述手写识别方法的不足之处,提出一种新的自由书写联机手写汉字识别方法。该方法不仅可以识别楷书、行书,而且可以识别不规范的手写连笔字,不仅可以识别手写简体汉字,还可以识别手写繁体汉字,数字和西文等,达到采用本发明的便携式计算机更加实用之目的。\n自由书写联机手写汉字识别方法是二种汉字识别方法的结合,即识别楷书和部分行书的基于汉字笔划基元有容错能力的句法结构分析方法和识别不规范连笔字的基于字型的统计联机识别方法。用户在图形输入板上书写汉字,经接口将汉字笔划轨迹点坐标序列输入计算机,经预处 理后,进行笔划基元的抽取和判别,根据汉字的特点,将汉字的笔划分为七类:1.横(一,/);(2)竖(丨);3.撇(丿);4.捺( );5.左折(乛,乙);6.右折(乚, );7.点(丶)。它们作为组成汉字的基元。汉字表达式字典是手写写体笔划类型大致正确,笔顺也因人而异的汉字表达式集。输入待识字的笔划序列信息经粗分类后,用有容错能力的句法结构分析得到识别结果。若为“拒识”,即机器用上述识别方法不认识,则作字型统计特征抽取,经规格化和统计特征粗分类后,对粗分类的候选集作匹配判别,这时是用经机器所获得的细分类特征库,求输入汉字的统计字型特征与细分类特征库中汉字的相似度,以最相似字作为识别结果。由于不规范的连笔字是抽不出笔划的,因此这是基于统计的识别方法。\n附图简要说明:\n图1 联机手写汉字识别系统的组成框图\n图2 自由书写联机手写汉字识别方法总体组成图\n图3 原型特征提取的扫描线示意图\n图4 字型统计特征规格式算法流程图\n本发明所述的自由书写联机手写汉字识别方法实现步骤如图1所示,结合附图2详细描述如下:\n一、基于笔划基元有容错能力的句法结构分析方法包括以下步骤:\n1.预处理\n预处理包括四个方面:\n(1)除去飞点:消除大幅度跳动的坐标点。\n(2)平滑:消除坐标点的不规则抖动,通过滤波实现。\n(3)除去冗余点:消除对识别来说不必要的点,以减少后续处理的工作量,主要通过距离判别完成。\n(4)对于尺寸超过一定范围的汉字进行线性压缩,使其大小规格化。\n经过预处理消除了笔划噪声,压缩了信息量,并使手写汉字的大小规格化。\n2.笔划基元的特征抽取和判别获得待识字的笔划有序列\n由于联机识别有起笔、落笔信号,可获得笔划数。通过对坐标点的跟踪可求得各笔划线段的方向。根据上述定义的七类笔划的标准模式和待识字笔划线段方向变化的趋势进行分析,将其归于合适的笔划类,这样就得到待识汉字的笔划有序列。\n3.粗分类,按笔划数和字的结构类型分类。\n4.汉字表达式字典:\n由于手写汉字书写的笔划类型不准确,而且书写时的某些笔顺经常因人而异,因此造成同一汉字的所得到的笔划有序列有多种可能。这些多种可能由人总结,在汉字表达式字典中反映出来。\n在句法结构模式识别中,把汉字笔划有序列看作一个句子,汉字笔划{横(H),竖(S),撇(P),捺(N),左折(Z),右折(Y),点(D)}作为基元。把若干句子组成的集合称为语言L。一种语言代表一个汉字,第i类语言Li代表第i个汉字。语言Li用形式化的文法规则Gi(VT,VN,P.S)来表示,因此常把Li写成L(Gi)。当用BNF范式(Baokus-Naur Form)描述手写汉字的规则时,因元符号只有<>,::=,(),{},则写出的汉字规则显得冗长和繁琐。对于笔顺要求严格部分,文法规则可以描述清楚,而对于笔顺要求不严格的部分,用BNF范式描述就显得繁琐。例如“女”,“里”的文法规则分别为:\n<女>::=YPH|HYP|YHP|HPY|PHY|PYH\n<里>::=SEHHHSH|SEHHSHH|SEHHHHS\n很繁琐,因此本发明在形式化描述手写汉字中提出用汉字表达式。其汉字表达式字典的特点为:\n(1)将每个汉字的文法规则合并为一个表达式,识别时可在大分类 后只进行较少量的句法分析,以提高识别速度。\n(2)由于每个汉字都有独立的表达式,能灵活地修改每个汉字的规则。\n(3)扩大了BNF范式的元符号,增加元符号[],称为码集符。在[]中的基元是元序的,可以任意颠倒。这样,当框式的结构规则中有的地方要求有序,有的地方是无序时,能够精练地描述。\n每条汉字表达式的左边是一个非终结符,右边是用终结符和元符号组成的串。汉字表达式的描述使识别字典的查找方便。\n汉字表达式中元符号的定义如下:\n<>:在<>中的对象符号为非终结符;\n::=:表示左边的对象符号用右边的符号来定义。\n[]:码集符,表示它里面的元素(终结符或表达式)是无序的,并且元素的符号可以重复存在。\n/\:表示它里面的元素(终结符或表达式)是“或”的关系。\n():括号,表示分界。\n例:若终结符VT={H.S.P.N.Z.Y.D},则汉字表达式为\n<女>::=[YPH],代表6种合法的笔划有序列。\n<里>::=SZHH[SHH],代表3种合法的笔划有序列。\n<制>::=PH[(HSZ)S]S/ZS\,代表4种合法的笔划有序列。\n<些>::=S/HZ\/SD\H[Y/HD\]HH,代表16种合法的笔划有序列。\n增加了元符号[],起缩写作用,使汉字规则字典所占的空间大大减少,并且可使识别速度的提高。在有序列中增加了无次序的部分,在模式规划描述过程中是有用的。\n5.有容错能力的句法结构分析\n将待识汉字的笔划有序列,与粗分类候选集中的汉字表达式相匹配,判断该汉字的笔划有序列符合哪个汉字表达式,这部分称为句法结构分 析。为了减少对用户书写的限制,允许用户书写时有1~2笔划书写不正确,在句法结构分析中,不仅要找到完全符合待识汉字笔划有序列的汉字表达式,而且还要找出有1~2笔划不同的相似字,得到识别结果的候选集。由用户以交互方式选字。\n若上述方法对待识字“拒识”,则进入基于字型的统计联机识别方法。对于不规范的连笔字,笔划的数目和类型都很难抽取正确,因此要用基于字型的统计联机识别方法。\n二.基于字型的统计联机识别方法\n文字识别中有两个关键问题:一个是特征的提取,另一个是特征的匹配判别,它们从原理上决定了识别率与识别速度的高低。\n1.特征的提取\n对不规范的连笔字,即部件(偏旁部首)内笔划之间连笔,而且部件之间也是连笔的,只要求用户按自己的习惯书写,字型大致保持自己的风格。通过对这种手写体的分析,本发明的识别特征采用汉字字型的统计特征,即横、竖、左斜(-45°)、右斜(+45°)四个扫描方向的与笔划相交的点数,即间接地反映了各方向的笔划数目。就象一个三维物体的三视图可以确定物体的形状一样,这种基于字型的统计特征也可以比较全面、准确地反映字符的结构。\n字符点阵表示(落笔点为非零,其它点为零),特征提取分两步:\n原型特征的抽取及对原型特征规格化,得到字型的统计特征。\n现以字符为96×96点阵为例具体解释如下:\n①原型特征的抽取\n在96×96点阵上做横、竖线各96条,左斜、右斜线各191条,如图3所示。\n设轨迹(即落笔点,为非0光素)上某一点的坐标为(X,Y),根据坐标判断该点分别在四个方向的直线族中的哪4条上,并在这条直线对应 的特征分量上计数。\n②特征规格化:因为字符大小不一,因此需要对原形特征规格化,每个方向12维,共得到12×4=48维向量。\n规格化过程如下:因为手写的字不一定是充满格的,因此初步提取的原型特征在四周会有空白,先在某一方向的向量中,扩充非零元素的个数,使其占满整个空间,然后按顺序把几个相邻分量相加,把特征向量在各个方向上都压缩为12维分量FEADIML(12),使其具有一定的稳定性与模糊性,占用较少的存贮空间,且易于匹配判别。\n扩充有两种情况:如果非零元素的个数小于两头零元素的个数和,就把每一个非零元素复制q份,插入。如果非零元素的个数大于两头零元素的个数,则隔几个非零元素插一个。这是一种离散量的规格化算法,其算法流程图如图4所示。\n关键参数为:\nDIM-被规格化向量的维数;\nFEADIM-规格化后特征向量的维数;\nFEACO-DIM/FEDIM的比值;\nZf-笔划开头到字框0的个数;\nZ-笔划头尾0的个数和;\nYC-笔划中非零的宽度;\nq,r-q=Z/YC的商,r=Z/YC的余数;\nA-数组,规格化时的中间变量;\nBUFADD-被规格化向量的首地址。\n2.粗分类特征库及分类法\n统计特征规格化后得到四个方向上的Hb[i],Vb[i],Lb[i],Rb[i]共48维向量。粗分类的特征库为四个方向组成的分量Hc,Vc,Lc,Rc的上下限,它们分别为:\n, ,, ,, \n其中i=1,2…12。\n各分量的上下限由样本集进行训练得到。\n对于文字特征的分类方法是决定文字识别效果的重要环节,要根据所得到的特征特点来寻找恰当的分类方法。\n对于不规范连笔的手写体的特征是很难稳定的。因此采用对各方向特征取候选集,然后求并集和交集获得粗分类候选集,该分类方法可以减少分类错误,可以在特征不很稳定的情况下,找到不太大的候选集。然后再作进一步的匹配。\n3.细分类特征库与特征的匹配判别\n特征匹配判别是待识汉字的特征向量X=(x1,x2,…xn)(n为48维)与细分类特征库中的哪一个字的特征向量Yk=(yk1,yk2,…ykn)最相似,其中k=1,2…Q(Q为粗分类候选集的字符个数)\n以欧氏距离D2S为最小的次序排队,作为识别结果。对于两个n维向量,欧氏距离为\n(xi-yki)2\n4.快速机器学习:\n对不规范的手写连笔字本系统是通过机器学习建立和修改粗分分类特征库和细分类特征库,扩大其粗分类的特征空间,修改细分类特征库的参数,使识别系统能适应用户的笔体。\n本发明把基于汉字笔划的结构识别方法与基于字形的联机识别统计方法相结合,不仅可以识别楷书、行书,而且可以识别不规范的手写连笔字。不仅可以识别手写简体汉字,还可以识别手写繁体汉字,数字和西文等。使采用本发明汉字识别方法的便携式计算机更加实用。
法律信息
- 1999-04-21
专利权的终止未缴年费专利权终止
专利权的终止未缴年费专利权终止
- 1995-08-16
- 1993-09-01
- 1993-08-25
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2005-06-06 | 2005-06-06 | | |