著录项信息
专利名称 | 一种字符书写规范度评测的方法和装置 |
申请号 | CN201210025583.4 | 申请日期 | 2012-02-06 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2012-07-25 | 公开/公告号 | CN102609735A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/68 | IPC分类号 | G;0;6;K;9;/;6;8查看分类表>
|
申请人 | 安徽科大讯飞信息科技股份有限公司 | 申请人地址 | 安徽省合肥市高新开发区望江西路666号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 科大讯飞股份有限公司 | 当前权利人 | 科大讯飞股份有限公司 |
发明人 | 何婷婷;胡郁;胡国平;刘庆峰 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 逯长明;李丽 |
摘要
本发明涉及模式识别领域,特别是涉及一种字符书写规范度评测的方法和装置,所述方法包括:采集并记录书写字符的笔画轨迹;提取所述书写字符的笔画轨迹的笔迹动态特征;将提取的笔迹动态特征与预置的与所述书写字符对应的字符模型进行匹配,搜索最优匹配路径,获取与所述最优匹配路径对应的相似度得分;所述字符模型用于模拟至少一种常见书写顺序的字符书写动态轨迹;判断所述相似度得分是否大于第一阈值,如果是,确定所述书写字符符合规范。本发明实施例提供的方法有效地解决了现有技术中由于书写笔顺不一致带来的规范度评分过低的问题,提高了书写规范度评估的合理性、客观性、准确性。
一种字符书写规范度评测的方法和装置\n技术领域\n[0001] 本发明涉及模式识别领域,特别是涉及一种字符书写规范度评测的方法和装置。\n背景技术\n[0002] 随着信息交互的发展,计算机辅助教学得到了广泛的应用。例如,在汉语教学方面,计算机辅助教学提供了汉字演化、拼音示范、汉字书写动态演示等应用,然而,在对用户汉字书写规范度评估方面却较少涉及。一个书写规范的汉字通常要求笔画标准、笔顺符合规范,同时字符整体结构紧凑符合美观的要求。由于汉字数量较大,对汉字的规范性评估实现较为复杂,涉及图像处理、模式识别等技术,因此如何有效地针对用户书写的字符进行规范度评估成为一个具有挑战性的课题。\n[0003] 现有技术中,存在一种对汉字规范性进行评估的方法。这种方法首先获得书写汉字的标准笔画数,并通过采集的书写汉字的轨迹获取该书写汉字对应的模板。随后在对新输入书写汉字评估时将该书写汉字的输入笔迹与模板汉字进行对比,如果二者的笔画数目不相等,则直接判断该书写汉字不符合规范。如果二者相等,则按笔画顺序将书写汉字的各笔画和模板汉字笔画一一对应,并计算笔画相似度。若匹配得分小于指定第一域值的笔画数的数目超过指定第二域值,则判断该字符书写不符合规范。否则若笔画相似度平均匹配得分小于指定第三域值,则判断该字符书写不符合规范。\n[0004] 在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:现有技术提供的方法中,是基于书写汉字的笔画和模板字符对应笔画的匹配度对笔画书写的规范度进行评估,具体的,设置模板字符对应的笔画为具有和当前考察书写笔画相同序号的笔画,也就是说,是将书写汉字的第N笔笔画的特征向量与对应模板汉字的第N笔笔画的特征向量进行匹配。在此设置下,要求书写字符的笔顺和参考模板的笔顺严格一致,否则当书写字符存在个别笔顺颠倒,其后续所有笔画都将不能和模板字符笔画正确对应,从而影响后续笔画的匹配得分,导致过低评估该字符的书写规范度。笔顺的错位虽然不符合字符书写规范要求,但不应成为评判书写规范的决定性因素。该方法过多依赖于字符书写的笔顺规范,容易导致对书写规范度评估过低的问题,不够准确、客观。\n[0005] 另一方面,现有技术提供的方法对书写字符的笔画数要求过于严格,要求其和模板字符的笔画数目严格相同,否则直接判断为书写不规范。而通常当用户对所写字符比较熟悉时可能存在相邻笔画连笔书写问题从而引起笔画数的减少,或者在电子笔迹采集中由于笔迹显示等问题用户可能会对某一笔画分段书写引起笔画数增多等现象。字符书写笔画数目不一致虽然会影响到字符书写规范度,但不应成为判断书写规范与否的决定性因素。\n因此,现有技术提供的方法评估不够准确。\n[0006] 再一方面,现有技术提供的方法对书写字符的规范度评估主要基于各单独笔画相似度的独立评估结果,通过从每个笔画提取相对独立的特征与标准模板进行比较来进行规范度评估。该方法没有从相邻笔画的相对位置关系评估,因而没有考虑到字体结构及美观度对字符规范度的影响。显然现有技术提供的方法不能对字体结构进行评估,对书写字符的规范度评估尚不够全面。\n发明内容\n[0007] 为解决上述技术问题,本发明实施例提供了字符书写规范度评测的方法和装置,可以有效解决现有技术中由于书写笔顺不一致带来的评分过低的问题,提高了书写规范度评估的合理性、客观性、准确性。\n[0008] 一方面,本发明实施例提供了一种字符书写规范度评测的方法,所述方法包括:\n[0009] 采集并记录书写字符的笔画轨迹;\n[0010] 提取所述书写字符的笔画轨迹的笔迹动态特征;\n[0011] 将提取的笔迹动态特征与预置的与所述书写字符对应的字符模型进行匹配,搜索最优匹配路径,获取与所述最优匹配路径对应的相似度得分;所述字符模型用于模拟至少一种常见书写顺序的字符动态轨迹;\n[0012] 判断所述相似度得分是否大于第一阈值,如果是,确定所述书写字符符合规范。\n[0013] 优选的,所述提取所述书写字符的笔画轨迹的笔迹动态特征包括:\n[0014] 将所述书写字符的笔画轨迹进行大小归一化处理;\n[0015] 添加虚拟笔,连接笔画轨迹中前后相邻的两个独立笔画;\n[0016] 进行笔画重采样处理;\n[0017] 在重采样处理获取的时序采样点列上逐点提取笔迹动态特征,所述笔迹动态特征用于描述书写字符的书写方向及方向变化特征。\n[0018] 优选的,所述提取所述书写字符的笔画轨迹的笔迹动态特征包括:\n[0019] 添加虚拟笔,连接笔画轨迹中前后相邻的两个独立笔画;\n[0020] 进行笔画重采样处理;\n[0021] 将所述书写字符的笔画进行大小归一化处理;\n[0022] 在重采样处理获取的时序采样点列上逐点提取笔迹动态特征,所述笔迹动态特征用于描述书写字符的书写方向及方向变化特征。\n[0023] 优选的,所述进行笔画重采样处理包括:\n[0024] 提取笔画关键点作为笔画重采样点;或者\n[0025] 按照预先设定的距离间隔对连续笔迹进行等间距重新采样。\n[0026] 优选的,所述提取笔画关键点作为笔画重采样点包括:\n[0027] 提取笔画的起始点、结束点以及连续笔画的拐点作为关键点;其中连续笔画的拐点可以通过检测样本点的张角确定。\n[0028] 优选的,所述在重采样处理获取的时序采样点列上逐点提取笔迹动态特征包括:\n[0029] 获取当前采样点Pi与前一个采样点Pi-1的差值作为第一差值(Δxi,Δyi);\n[0030] 获取当前采样点Pi与前两个采样点Pi-2的差值作为第二差值(Δ2xi,Δ2yi);\n[0031] 获取当前采样点Pi与前一个采样点Pi-1的距离li;\n[0032] 将所述第一差值、第二差值以及所述距离作为笔迹动态特征向量。\n[0033] 优选的,所述方法还包括:\n[0034] 构建字符模型,用于模拟至少一种常见书写顺序的字符书写动态轨迹。\n[0035] 优选的,所述构建字符模型包括:\n[0036] 采集训练数据,所述训练数据为具有规范笔顺、符合书写规范要求的笔迹样本数据;\n[0037] 根据字符的笔画和笔顺,建立标准书写模型的隐马尔科夫模型拓扑结构;\n[0038] 训练标准书写模型参数;\n[0039] 对标准书写模型进行优化处理,以模拟其他非标准的常用笔顺的字符书写动态轨迹。\n[0040] 优选的,所述方法还包括;\n[0041] 当判断所述相似度得分大于第一阈值时,获取所述最优匹配路径的权重得分;\n[0042] 根据所述相似度得分以及最优匹配路径的权重得分获取字符规范度得分。\n[0043] 优选的,所述根据所述相似度得分以及最优匹配路径的权重得分获取字符规范度得分为:\n[0044] 将所述相似度得分与最优匹配路径的权重得分的加权平均值作为字符规范度得分;其中,加权的权值为预设的参数。\n[0045] 另一方面,本发明实施例提供了一种字符书写规范度评测的装置,所述装置包括:\n[0046] 采集模块,用于采集并记录书写字符的笔画轨迹;\n[0047] 动态特征提取模块,用于提取所述书写字符的笔画轨迹的笔迹动态特征;\n[0048] 匹配模块,用于将提取的笔迹动态特征与预置的与所述书写字符对应的字符模型进行匹配,搜索最优匹配路径,获取与所述最优匹配路径对应的相似度得分;所述字符模型用于模拟至少一种常见书写顺序的字符动态轨迹;\n[0049] 第一评估模块,用于判断所述相似度得分是否大于第一阈值,如果是,确定所述书写字符符合规范。\n[0050] 优选的,所述动态特征提取模块包括:\n[0051] 归一化单元,用于将所述书写字符的笔画轨迹进行大小归一化处理;\n[0052] 虚拟笔添加单元,用于添加虚拟笔,连接笔画轨迹中前后相邻的两个独立笔画;\n[0053] 重采样单元,用于进行笔画重采样处理;\n[0054] 特征提取单元,用于在重采样处理获取的时序采样点列上逐点提取笔迹动态特征,所述笔迹动态特征用于描述书写字符的书写方向及方向变化特征。\n[0055] 优选的,所述特征提取单元包括:\n[0056] 第一获取单元,用于获取当前采样点Pi与前一个采样点Pi-1的差值作为第一差值(Δxi,Δyi);\n[0057] 第二获取单元,用于获取当前采样点Pi与前两个采样点Pi-2的差值作为第二差值\n2 2\n(Δxi,Δyi);\n[0058] 第三获取单元,用于获取当前采样点Pi与前一个采样点Pi-1的距离li;\n[0059] 第四获取单元,用于将所述第一差值、第二差值以及所述距离作为笔迹动态特征向量。\n[0060] 优选的,所述装置还包括:\n[0061] 字符模型库,用于存储基于图结构的字符模型。\n[0062] 优选的,所述装置还包括:\n[0063] 第二评估模块,用于当判断所述相似度得分大于第一阈值时,获取所述最优匹配路径的权重得分;根据所述相似度得分以及最优匹配路径的权重得分获取字符规范度得分。\n[0064] 本发明实施例能够达到的有益效果为:本发明实施例提供的方法通过采集并记录书写字符的笔画轨迹,提取笔迹动态特征;将提取的笔迹动态特征与预置的与书写字符对应的字符模型进行匹配,搜索最优匹配路径,获取与最优匹配路径对应的相似度得分;判断所述相似度得分是否大于第一阈值,如果是,确定所述书写字符符合规范。本发明提供的方法由于采用基图结构的字符模型,用以模拟常用的字符各种书写顺序,因此在将待评估的书写字符与模型进行匹配时,可以找到与书写字符的笔顺匹配的最优匹配路径,实现了待评估的书写字符与标准模型字符之间的有效对应,有效地解决了现有技术中由于书写笔顺不一致带来的规范度评分过低的问题,提高了书写规范度评估的合理性。\n[0065] 再一方面,由于本发明实施例提供的方法为采集的笔画轨迹添加虚拟笔,将书写字符的所有单独笔画通过虚拟笔连成一个连续的笔画,借以模拟不同笔画之间的相对位置,并在此基础上进行动态特征提取,从多方面模拟了笔迹书写特点,提取的动态特征向量较好的描述了书写方向特征、书写笔画之间的位置关系,因此可以对待评估的书写字符的结构、美观度进行评估,评估更加全面、客观。\n附图说明\n[0066] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。\n[0067] 图1为本发明实施例提供的字符书写规范度评测方法第一实施例流程图;\n[0068] 图2为本发明第一实施例提供的特征提取过程示意图;\n[0069] 图3为本发明实施例提供的动态书写模型示意图;\n[0070] 图4为本发明实施例提供的Viterbi算法示意图;\n[0071] 图5为本发明实施例提供的字符书写规范度评测方法第二实施例流程图;\n[0072] 图6为本发明实施例提供的字符模型构建示意图;\n[0073] 图7为本发明第二实施例提供的特征提取过程示意图;\n[0074] 图8为本发明实施例提供的字符书写规范度评测装置示意图。\n具体实施方式\n[0075] 本发明实施例提供了字符书写规范度评测的方法和装置,可以有效解决现有技术中由于书写笔顺不一致带来的评分过低的问题,提高了书写规范度评估的合理性、客观性、准确性。\n[0076] 为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。\n[0077] 参见图1,为本发明提供的字符书写规范度评测的方法第一实施例流程图,所述方法包括:\n[0078] S101,采集并记录书写字符的笔画轨迹。\n[0079] 在本发明提供的方法中,用户可以预先选定当前想要练习的汉字,并在预设的书写区域内书写对应的字符,以建立用户书写的待评估的字符与标准字符的对应关系。当然,也可以不包括选择的步骤,直接提供书写区域,采集用户书写的字符的笔画轨迹。系统将采集得到的字符的笔画轨迹记录为一系列二维坐标点列Pi(xi,yi)并标注笔画起始和结束标志。\n[0080] S102,提取所述书写字符的笔画轨迹的笔迹动态特征。\n[0081] 由于原始的二维坐标点列信号容易受到各种噪音的干扰,且存在大量冗余信息,直接根据其进行书写规范度评估将导致运算量和评估准确度的下降。因此,本发明实施例提供的方法首先从原始笔画轨迹中提取具有高表征力的特征向量,用以描述书写过程的动态特征。\n[0082] 参见图2,为本发明第一实施例特征提取过程示意图。\n[0083] 具体的,步骤S102可以通过步骤S201-S204实现:\n[0084] S201,将所述书写字符的笔画轨迹进行大小归一化处理。\n[0085] 将采集得到的书写字符的笔画轨迹映射到预设的大小,具体的,可以映射到与字符模板中的字符相同的大小。\n[0086] S202,添加虚拟笔,连接笔画轨迹中前后相邻的两个独立笔画。\n[0087] 具体的,将按照书写顺序将前后两个相邻的笔画用线段进行连接,这样,即可将原始的书写字符的所有单独笔画通过虚拟笔画连成一个连续的单独笔画。添加虚拟笔的主要作用是借以模拟不同笔画之间的相对位置关系。\n[0088] S203,进行笔画重采样处理。\n[0089] 具体的,进行笔画重采样处理具体可以包括:\n[0090] 提取笔画关键点作为笔画重采样点或者对连续笔迹按照预先设定的距离间隔进行重新采样。\n[0091] 下面,首先对提取笔画关键点进行介绍。\n[0092] 在这里,这里的笔画是指从用户落笔到抬笔时记录的书写轨迹,笔画上的关键点主要包括各笔画的起始点、结束点以及笔画中明确的拐点等。关键点提取即将用户落笔到抬笔的连续笔画划分成具有单一书写方向的基本线性构件。由相邻关键点界定的笔段可以是传统意义的完整笔画,也可以是某一笔画中具有单一书写方向的部分。例如,笔画“ㄅ”可以划分成“撇”“横”,“折”,“钩”四个笔段。关键点主要包括笔画的起始点和结束点,以及连续笔画中的明确拐点。\n[0093] 其中,连续笔画的拐点可以通过检测样本点的张角确定。在本发明提供的实施例中,可以采用基于样本点的张角分析的方法对每个笔画单独分析。具体的,系统获取样本点的张角,当所述张角小于设定的第二阈值时,将其作为关键点;其中,样本点的张角为所述样本点与前后相邻的样本点构成的夹角。这里,当样本点的张角小于预设的第二阈值时(例如120度),可以将其作为关键点;特别的,根据不同应用需求,可以直接将提取的笔画关键点作为笔画重采样点,以提高系统运算效率。\n[0094] 优选的,还可以对连续笔迹按照预先设定的距离间隔重新采样,从而将原始录入的时间均等的采样点序列重采样为间距均等的采样点序列。具体的,是按照等间距间隔把两个关键点之间的笔段进行分割,获取重采样的采样点序列。\n[0095] S204,在重采样处理获取的时序采样点列上提取笔迹动态特征。\n[0096] 具体的,在每个重采样点Pi=(xi,yi)上的提取具有高表征力的动态特征,并用D维特征向量序列表示,这里D为每个采样点上提取特征的维数。提取的动态特征或动态特征的组合应当能够较好的描述书写字符的动态变化特征,如书写方向,方向变换以及不同笔画间的相对位置关系等。\n[0097] 具体的,在本发明一个实施例中,动态特征提取通过以下步骤实现:\n[0098] 获取当前采样点Pi与前一个采样点Pi-1的差值作为第一差值(Δxi,Δyi);\n[0099] 获取当前采样点Pi与前两个采样点Pi-2的差值作为第二差值(Δ2xi,Δ2yi);\n[0100] 获取当前采样点Pi与前一个采样点Pi-1的距离li;\n[0101] 将所述第一差值、第二差值以及所述距离作为笔迹动态特征向量。\n[0102] 在本发明另一实施例中,也可以通过获取方向角θi、距离li作为特征向量,计算如下:\n[0103] \n[0104] 其中j=i+1,即当前采样点Pi的下一个采样点。\n[0105] S103,将提取的笔迹动态特征序列与预置的与所述书写字符对应的字符模型进行匹配,搜索最优匹配路径,获取与所述最优匹配路径对应的相似度得分;所述字符模型用于模拟至少一种按照常见书写顺序进行书写的字符动态轨迹。\n[0106] S103A,载入与当前书写字符对应的字符模型。\n[0107] 该字符模型用于模拟字符书写的动态特征,存储有按照至少一种书写顺序进行书写的字符动态轨迹。考虑到汉字笔画数目众多,用户在书写时常常不能完全按照标准笔顺规范正确书写,本发明实施例提出了一种基于图结构的字符模型借以模拟各种常用的字符笔顺,以实现后续书写字符笔画和标准字符笔画的有效对应,提高书写规范评估的合理性。\n[0108] 图3展示了字符“大”的动态书写模型示意图,其中每个节点都代表一个基本的笔段,而节点之间的跳转则代表相邻笔画的连接。具体的图中黑色节点表示真实笔画或笔段,而空心节点表示不同笔画之间的虚拟笔段。在本发明实施例中,对每个节点分别采用多高斯混合模型GMM模拟。图上开始和结尾的节点主要用于指示解码的开始和结束,从开始节点到结尾节点的一条完整路径表示一种可能的字符书写方式,如图中实线表示的“横撇捺”书写,以及虚线表示的“撇横捺”书写顺序,以及点虚线表示的“撇捺横”书写顺序。\n[0109] S103B,将笔迹动态特征序列和字符模型相匹配,搜索最优匹配路径及对应的相似度得分。\n[0110] 在本发明实施例中,考虑采用动态规划算法,如Viterbi算法等在基于图结构的模型空间中搜索最优路径。具体的将模型中所有的节点按时间顺序重复排列,使得每一时间点的状态列都对应于一帧书写动态特征矢量,如图4所示。\n[0111] 随后对每帧书写动态特征矢量计算当前搜索网络中所有满足系统预设条件的活跃节点相对于输入语音帧的累积历史路径概率;对给定的历史语音序列{O1,O2,...,Ot},假设其中t时刻的语音特征Ot转入活跃节点j的路径概率 计算如下:\n[0112] \n[0113] 即从活跃节点i到该节点j的所有可能历史路径的概率最大值。这里i表示搜索网络中所有与活跃节点j相连的活跃节点。 表示(t-1)时刻Ot-1特征落在活跃节点i上的历史路径概率。aij表示从节点i到节点j的转移概率,而bj(ot)表示第t帧语音数据Ot相应于节点j的似然概率。\n[0114] 搜索算法在状态矩阵中利用动态规划思想依时间顺序从左到右寻找到达每一列的各个状态最优状态子序列。当搜索到最后一个特征向量时,从终止状态回溯就可以得到最优解码状态序列。\n[0115] 将搜索的与书写字符匹配的路径作为最优匹配路径,并获取其对应的最优匹配路径的相似度得分\n[0116] \n[0117] S104,判断所述相似度得分是否大于第一阈值,如果是,确定所述书写字符符合规范。\n[0118] 可以预先设定第一阈值,当相似度得分大于第一阈值时,则确定书写字符符合规范,否则说明字符书写不规范。\n[0119] 在本发明实施例提供的方法中,由于采用的字符模型模拟了常用的字符各种书写顺序,因此在将待评估的书写字符与字符模型进行匹配时,可以找到与书写字符的笔顺匹配的最优匹配路径,实现了待评估的书写字符与标准模型字符之间的有效对应,有效地解决了现有技术中由于书写笔顺不一致带来的规范度评分过低的问题,提高了书写规范度评估的合理性。\n[0120] 另一方面,本发明实施例采用了动态特征提取方法,首先将原始笔迹归一化到系统预设的标准大小,随后将书写字符的所有单独笔画通过虚拟笔画连成一个连续笔画,借以模拟不同笔画之间的相对位置,最后从该连续笔画上提取模拟书写方向的特征,生成动态特征向量。这种方法从多方面模拟了笔迹书写特点,解决了传统算法中对笔迹描述不够全面,导致评价不够客观的问题。再一方面,提取的动态特征向量较好的描述了书写方向特征、书写方向变化特征以及相邻书写笔画之间的位置关系等,因此可以对待评估的书写字符的结构、美观度进行评估,评估更加全面、客观。\n[0121] 参见图5,为本发明实施例提供的字符书写规范度评测方法第二实施例流程图。\n[0122] S501,构建基于图结构的字符模型。\n[0123] 为了解决现有技术中由于用户书写中存在的倒笔顺引起的书写字符规范度评估过低的问题,本发明实施例提出了一种新的基于图结构的字符模型,以提高笔画匹配的有效性。具体的,通过训练样本的采集、模型拓扑结构构建、模型参数训练以及模型优化等步骤对给定字符构建对应的字符模型,具体过程如图6所示。\n[0124] 参见图6,为本发明实施例提供的字符模型构建示意图。\n[0125] S601,采集训练样本数据。\n[0126] 采集符合书写规范要求的、具有规范笔顺、标准笔画和美观字体结构的手写样本,并存入缓存区。\n[0127] S602,根据字符的笔画和笔顺,建立标准书写模型的隐马尔科夫模型拓扑结构。\n[0128] 根据字符的笔画和笔顺,确定自左到右的隐马尔科夫模型(Hidden Markov Model,简称HMM)的拓扑结构。具体的,设置HMM模型的状态数等同于实际书写笔段和虚拟笔段的总数,且允许状态之间自跳转和向下跳转。图3所示的实线代表了字符“大”的标准书写模型。考虑到该字符的标准写法是“横撇捺”,所以其标准模型由5个状态构成,分别代表“横”,“撇”,“捺”以及“横撇”,“撇捺”之间的虚拟笔连接笔段。\n[0129] S603,训练标准书写模型参数。\n[0130] 根据步骤S102所述提取书写字符的笔迹动态特征的方法,提取步骤S602采集到的训练样本数据的特征,并采用传统EM算法(期望最大化算法)训练S602构建的标准书写模型的参数,所述模型参数可以包括各状态的混合高斯均值、方差等参量等。\n[0131] S604,对标准书写模型进行优化处理。\n[0132] 优化步骤S603训练得到的标准书写字符模型,以模拟其他非标准的常用笔顺的字符书写动态轨迹,使其得以兼容其它不同笔顺写法。具体的,在模型优化算法中,本发明实施例主要实现字符对应的各种非标准写法,以实现对常规倒笔顺现象的模拟。具体的,可以通过以下步骤实现;\n[0133] S604A,确定字符非标准笔顺的一种写法,并构建模型拓扑结构。\n[0134] S604B,将原始采集的标准数据根据该笔顺序列重新排序,并提取新字符笔迹的动态特征。\n[0135] S604C,训练该优化模型的模型参数,具体的,可以在基于最大似然准则下通过传统EM算法训练S604A构建的模型参数。特别的,为了实现在同一图结构模型中对多种不同笔顺的模拟,在模型优化算法中还可仅对各虚拟笔画状态的参数进行训练,而保持标准模型中实际笔画的状态参数不变。\n[0136] S604D,根据该写法中倒笔顺的频率及和笔顺书写规范相左的程度设置该路径的权重。\n[0137] 一般来说倒笔划的笔画数越多,则权重越小。倒笔划的笔画越不符合常规则权重越小。\n[0138] 由此,即构建出基于图结构的字符模型。下面可以使用步骤S501构建的基于图结构的模型进行字符规范度评测。\n[0139] S502,采集并记录书写字符的笔画轨迹。\n[0140] S503,对所述书写字符的笔画轨迹进行预处理。\n[0141] 为了提高系统的鲁棒性,本发明第二实施例在进行动态特征提取前首先对采集到的字符笔迹进行预处理,具体可以通过野点去除、平滑等预处理技术减少笔迹中的毛刺等随机信号,减少噪音干扰。\n[0142] S504,提取所述书写字符的笔画轨迹的笔迹动态特征。\n[0143] 参见图7,为本发明第二实施例特征提取过程示意图。\n[0144] 具体的,步骤S504可以通过以下步骤实现:\n[0145] S701,添加虚拟笔,连接笔画轨迹中前后相邻的两个独立笔画。\n[0146] S702,进行笔画重采样处理。\n[0147] S703,将所述书写字符的笔画进行大小归一化处理。\n[0148] S704,根据重采样处理获取的采样点提取笔迹动态特征,所述笔迹动态特征用于描述书写字符的书写方向及方向变化特征。\n[0149] 在本发明第二实施例中,由于在对笔画重采样后对字符大小归一化,减少了采样点线性映射的计算量。\n[0150] S505,将提取的笔迹动态特征与预置的与所述书写字符对应的字符模型进行匹配,搜索最优匹配路径,获取与所述最优匹配路径对应的相似度得分。\n[0151] S506,判断所述相似度得分是否大于第一阈值,如果是,进入步骤S507。\n[0152] 由于笔顺信息也应作为书写规范度评估的一项标准,因此在本发明提供的第二实施例中,综合考虑笔顺信息以及笔画标准匹配相似度得分,对书写规范度得分进行了优化。\n[0153] 如果相似度得分小于第一阈值,则认为所述字符不符合规范,并设置该字符的相似度得分为系统预设的下限值,即将此得分作为第一阈值。\n[0154] S507,获取所述最优匹配路径的权重得分。\n[0155] 获取最优匹配路径的权重得分,作为对该书写字符的笔顺评分。该权重由系统预先在模型训练时根据倒笔顺的频率及和笔顺书写规范相左的程度设置。具体的对考察的某条路径,本案设置其路径权重由下列公式获取:\n[0156] \n[0157] 其中Nc是当前考察路径和标准路径共用的路段总合,而Nt是当前考察路径的所有路径总合。\n[0158] S508,根据所述相似度得分以及最优匹配路径的权重得分获取字符规范度得分。\n[0159] 具体的,将所述相似度得分与最优匹配路径的权重得分的加权平均值作为字符规范度得分,其中,加权的权值为预设的参数。该加权权值可以由系统根据经验预先设置,也可以通过模型训练的方法,在海量数据上训练得到。具体的,系统首先采集大量书写字符样本,并由人工按照书写规范要求给出评分,作为字符得分标注。随后将该字符样本和预设的图模型匹配获取字符得分及相应的路径得分作为字符的特征,通过线形回归或神经网络等方法获取特征对应的权重。\n[0160] 在本发明提供的第二实施例中,首先构建了基于图结构的字符模型,有效解决了由于书写的倒笔顺带来的评分过低的问题,提高了书写规范度评估的合理性。另一方面,将笔顺也作为评估的标准,将最优匹配路径的得分和笔画匹配的相似度得分进行加权平均以获取最终的规范度得分,使得评估标准更加全面、客观、准确。\n[0161] 参见图8,为本发明实施例提供的字符书写规范度评测的装置示意图。所述装置包括:\n[0162] 采集模块801,用于采集并记录书写字符的笔画轨迹。\n[0163] 动态特征提取模块802,用于提取所述书写字符的笔画轨迹的笔迹动态特征。\n[0164] 匹配模块803,用于将提取的笔迹动态特征与预置的与所述书写字符对应的字符模型进行匹配,搜索最优匹配路径,获取与所述最优匹配路径对应的相似度得分;所述字符模型用于模拟至少一种常见书写顺序进行书写的字符动态轨迹;\n[0165] 第一评估模块804,用于判断所述相似度得分是否大于第一阈值,如果是,确定所述书写字符符合规范。\n[0166] 具体的,所述动态特征提取模块802包括:\n[0167] 归一化单元,用于将所述书写字符的笔画轨迹进行大小归一化处理。\n[0168] 虚拟笔添加单元,用于添加虚拟笔,连接笔画轨迹中前后相邻的两个独立笔画。\n[0169] 重采样单元,用于进行笔画重采样处理。\n[0170] 特征提取单元,用于在重采样处理获取的时序采样点列上逐点提取笔迹动态特征,所述笔迹动态特征用于描述书写字符的书写方向及方向变化特征。\n[0171] 具体的,所述特征提取单元可以包括:\n[0172] 第一获取单元,用于获取当前采样点Pi与前一个采样点Pi-1的差值作为第一差值(Δxi,Δyi);\n[0173] 第二获取单元,用于获取当前采样点Pi与前两个采样点Pi-2的差值作为第二差值\n2 2\n(Δxi,Δyi);\n[0174] 第三获取单元,用于获取当前采样点Pi与前一个采样点Pi-1的距离li;\n[0175] 第四获取单元,用于将所述第一差值、第二差值以及所述距离作为动态特征向量。\n[0176] 具体的,所述装置还包括:\n[0177] 字符模型库,用于存储基于图结构的字符模型。\n[0178] 字符模型库构建模块,包括:\n[0179] 训练数据采集单元,用于采集训练数据,所述训练数据为具有规范笔顺、符合书写规范要求的样本数据。\n[0180] 模型拓扑构建单元,用于根据字符的笔画和笔顺,建立标准书写模型的隐马尔科夫模型拓扑结构。\n[0181] 模型参数估计单元,用于训练标准书写模型参数;\n[0182] 模型优化单元,用于对标准书写模型进行优化处理。\n[0183] 具体的,所述装置还包括:\n[0184] 第二评估模块,用于当判断所述相似度得分大于第一阈值时,获取所述最优匹配路径的权重得分;根据所述相似度得分以及最优匹配路径的权重得分获取字符规范度得分。\n[0185] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。\n[0186] 本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。\n[0187] 以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
法律信息
- 2015-03-25
专利权人的姓名或者名称、地址的变更
专利权人由安徽科大讯飞信息科技股份有限公司变更为科大讯飞股份有限公司
地址由230088 安徽省合肥市高新开发区黄山路616号变更为230088 安徽省合肥市高新开发区望江西路666号
- 2014-03-12
- 2012-09-26
实质审查的生效
IPC(主分类): G06K 9/68
专利申请号: 201210025583.4
申请日: 2012.02.06
- 2012-07-25
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2011-02-02
|
2010-07-19
| | |
2
| |
2011-02-16
|
2010-11-10
| | |
3
| |
2009-12-16
|
2009-07-10
| | |
4
| | 暂无 |
2003-07-25
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |