著录项信息
专利名称 | 一种人民币序列号识别方法 |
申请号 | CN201210237888.1 | 申请日期 | 2012-07-10 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2012-11-28 | 公开/公告号 | CN102800148A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G07D7/20 | IPC分类号 | G;0;7;D;7;/;2;0查看分类表>
|
申请人 | 中山大学 | 申请人地址 | 广东省广州市海珠区新港西路135号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中山大学 | 当前权利人 | 中山大学 |
发明人 | 郑慧诚;李茵茵;赖剑煌 |
代理机构 | 广州市华学知识产权代理有限公司 | 代理人 | 陈燕娴 |
摘要
本发明公开了一种人民币序列号识别方法,包括,S1、对纸币图像进行预处理,包括改善严重曝光、提取纸币图像以及配准纸币图像;S2、用两步法来对序列号进行定位,即第一步使用先验知识大致定位,第二步对序列号进行准确定位;然后使用垂直投影法对序列号进行字符分割;S3、采用新13点特征提取法,针对易混淆字符的特点专门进行特征值的多重提取,再根据字符位置与类型的关系采用支持向量机进行识别,获得较高的识别准确率。本发明可提高序列号识别系统对于不同角度、光照、背景、分辨率的输入纸币图像的鲁棒性,并提高定位和识别速度、识别准确率。
1.一种人民币序列号识别方法,其特征在于,包括下述步骤:
S1、对纸币图像进行预处理,包括改善严重曝光、提取纸币图像以及配准纸币图像;
S2、用两步法来对序列号进行定位,即第一步使用先验知识大致定位,第二步对序列号进行准确定位;然后使用垂直投影法对序列号进行字符分割;
S3、采用新13点特征提取法,针对易混淆字符的特点专门进行特征值的多重提取,再根据字符位置与类型的关系采用支持向量机进行识别;
步骤S1中,所述预处理具体为:
S11、在灰度化的基础上结合顶帽变换以改善纸币图像二值化效果;
S12、提取纸币图像所在的矩形区域以去除无关的背景信息;
S13、利用单应矩阵对图像进行配准以校正倾斜和消除透视效应;
S14、先根据二值纸币图像像素点的左右分布来判断倒转情况,再根据纸币左下方区域的颜色色调来判断正反面情况;
所述步骤S3中,基于多重特征的新13点特征值法具体为:
第1个特征值为字符宽度,第2、3个特征值为字符像素值的上下、左右比值,第4-12个特征值为字符的九宫格内像素值,第13个特征值为总像素值,对易于混淆的字符进一步进行特征的二次以至三次提取。
2.根据权利要求1所述的人民币序列号识别方法,其特征在于,步骤S13中,利用单应矩阵对图像进行配准的具体步骤如下:
S131、建立配准前纸币图像的四个顶角坐标与配准图像的对应关系;
S132、由坐标对应关系求出单应矩阵;
S133、利用单应矩阵求出配准后的纸币图像中在配准前的纸币图像的对应点;
S134、采用双线性插值法对配准后的纸币图像赋值。
3.根据权利要求2所述的人民币序列号识别方法,其特征在于,步骤S131中,在求配准前纸币图像的四个顶角坐标时,采用四向法或最远点法,所述四向法为从上下左右四个方向分别寻找坐标点;所述最远点法为分四个象限分别计算二值纸币图像中非零点到对角线的距离,距离最大点为顶点。
4.根据权利要求1所述的人民币序列号识别方法,其特征在于,步骤S2中,二步定位法具体为:
S21、利用先验知识大致定位在配准图像左方1/4和下方1/3的矩形区域;
S22、采用基于分块二值化的精准定位,即将大致定位图分成左右两块并分别使用其全局阈值进行二值化,再拼合起来进行扫描定位。
5.根据权利要求1所述的人民币序列号识别方法,其特征在于,步骤S3中,支持向量机识别方法具体步骤为:
S31、输入归一化的二值序列号图像,并按下面步骤根据人民币序列号字符位置N依
1,3,2,4,5,6,7,8,9,10的顺序逐个识别其中的每个字符CN;
S32、根据位置N按字母类别、混合类别以及按数字类别进行分类识别,并判断是否是易错字符;
S33、如果是易错字符则进一步提取特征再识别;否则直接转至下一步;
S34、判断序列号第3个字符C3是否是字母,如果是,把第2个字符C2按数字类型识别,如果否,把第2个字符C2按字母类型识别;
S35、完成序列号图像中所有字符识别,输出序列号识别结果。
6.根据权利要求5所述的人民币序列号识别方法,其特征在于,步骤S32中,序列号的具体识别分类过程是:
将人民币序列号的第1个字符按字母类别识别,第3个字符按混合类别进行识别,第2个字符根据第3个字符的类型确定识别类型,第4至第10个字符按数字类型进行识别。
一种人民币序列号识别方法\n技术领域\n[0001] 本发明涉人民币识别的技术领域,特别涉及一种人民币纸币序列号识别方法。\n背景技术\n[0002] 人民币纸币序列号的自动识别对于国家货币管理、银行金融安全和人民币纸币收藏都有着重要意义。首先,要正确规划统筹货币政策,就要掌握好纸币信息,如已投放和已回收的人民币数量、纸币序列号的使用情况等。其次,纸币序列号识别可以用来对特定序列号纸币进行甄别,为金融机构对特定货币(劫钞、伪币等)进行特殊处理提供条件。再次,近年来兴起的人民币收藏热也使得序列号中具有吉祥号码或包含纪念日的纸币大受追捧,纸币序列号识别系统可以使收藏者快捷地记录自己所拥有的所有序列号,便于自己筛选整理。\n[0003] 目前的人民币纸币识别系统有基于单片机和DSP的纸币识别系统,主要采用模板匹配法,特征统计法和多特征融合法。\n[0004] 基于模板匹配的方法是在创建模板库后对字符进行特征提取,再对每一个模板库进行匹配。由于实现起来较为简单,已应用于硬件系统的人民币序列号识别方法大多是基于模板匹配的。特征统计法则根据字符各自的特征将字符一步步细化分类,对已知类别的图像样本用统计学的方法确定判决函数及判决规则;多特征融合法首先根据样本的每组特征分别对样本进行分类,然后将所有的分类结果进行融合,得到最终分类结果。前两种方法抗干扰能力差,对噪声敏感,其中模板匹配法的计算量很大,识别精度不高,第三种多特征融合法中,子分类器分类后的后验概率需要在融合过程中相乘,子分类器较多时结果不太可靠。\n[0005] 神经网络和支持向量机两种通用的模式识别方法在人民币纸币序列号识别研究中取得了不错的效果。其中基于神经网络的方法是模仿人类神经结构,通过结构设计和参数优化用样本来训练神经网络。但这种方法的网络训练相对比较麻烦,BP网络的初始值和激励函数对模型的识别性能影响很大,同时需要大量的训练样本和多次试验才能得到较为理想的结果。基于支持向量机的识别方法通过升维和线性化,在特征空间构造最优分类超平面。主要优点有:避免了“维数灾难”,大大简化了分类和回归问题,泛化性好。然而,有效特征的提取仍是识别效果的关键。\n[0006] 当前,仍然没有成熟的人民币纸币序列号识别算法,大多由于实时性不强、识别率不够高等原因没有得到广泛应用。验钞打号机能对美元、英镑等典型纸币进行号码打印,但是目前仍不支持人民币。因此,自主开发人民币纸币序列号识别系统的应用前景广阔。\n发明内容\n[0007] 本发明的目的在于克服现有技术的缺点与不足,提供一种可提高序列号识别系统对于不同角度、光照、背景、分辨率的输入纸币图像的鲁棒性的人民币序列号识别方法。\n[0008] 本发明的目的通过下述技术方案实现:\n[0009] 本发明提出了一种人民币序列号识别方法,包括下述步骤:\n[0010] S1、对纸币图像进行预处理,包括改善严重曝光、提取纸币图像以及配准纸币图像;\n[0011] S2、用两步法来对序列号进行定位,即第一步使用先验知识大致定位,第二步对序列号进行准确定位;然后使用垂直投影法对序列号进行字符分割;\n[0012] S3、采用新13点特征提取法,针对易混淆字符的特点专门进行特征值的多重提取,再根据字符位置与类型的关系采用支持向量机进行识别,获得较高的识别准确率。\n[0013] 优选的,步骤S1中,所述预处理具体为:\n[0014] S11、在灰度化的基础上结合顶帽变换以改善纸币图像二值化效果;\n[0015] S12、提取纸币图像所在的矩形区域以去除无关的背景信息;\n[0016] S13、利用单应矩阵对图像进行配准以校正倾斜和消除透视效应;\n[0017] S14、先根据二值纸币图像像素点的左右分布来判断倒转情况,再根据纸币左下方区域的颜色色调来判断正反面情况。\n[0018] 优选的,步骤S13中,利用单应矩阵对图像进行配准的具体步骤如下:\n[0019] S131、建立配准前纸币图像的四个顶角坐标与配准图像的对应关系;\n[0020] S132、由坐标对应关系求出单应矩阵;\n[0021] S133、利用单应矩阵求出配准后的纸币图像中在配准前的纸币图像的对应点;\n[0022] S134、采用双线性插值法对配准后的纸币图像赋值。\n[0023] 优选的,步骤S131中,在求配准前纸币图像的四个顶角坐标时,采用四向法或最远点法,所述四向法为从上下左右四个方向分别寻找坐标点;所述最远点法为分四个象限分别计算二值纸币图像中非零点到对角线的距离,距离最大点为顶点。\n[0024] 优选的,步骤S2中,二步定位法具体为:\n[0025] S21、利用先验知识大致定位在配准图像左方1/4和下方1/3的矩形区域;\n[0026] S22、采用基于分块二值化的精准定位,即将大致定位图分成左右两块并分别使用其全局阈值进行二值化,再拼合起来进行扫描定位。\n[0027] 优选的,所述步骤S3中,基于多重特征的新13点特征值法具体为:\n[0028] 第1个特征值为字符宽度,第2、3个特征值为字符像素值的上下、左右比值,第\n4-12个特征值为字符的九宫格内像素值,第13个特征值为总像素值,对易于混淆的字符进一步进行特征的二次以至三次提取。\n[0029] 优选的,步骤S3中,支持向量机识别方法具体步骤为:\n[0030] S31、输入归一化的二值序列号图像,并按下面步骤根据人民币序列号字符位置N依1,3,2,4,5,6,7,8,9,10的顺序逐个识别其中的每个字符CN;\n[0031] S32、根据位置N按字母类别、混合类别以及按数字类别进行分类识别,并判断是否是易错字符;\n[0032] S33、如果是易错字符则进一步提取特征再识别;否则直接转至下一步;\n[0033] S34、判断序列号第3个字符C3是否是字母,如果是,把第2个字符C2按数字类型识别,如果否,把第2个字符C2按字母类型识别;\n[0034] S35、完成序列号图像中所有字符识别后,输出序列号识别结果。\n[0035] 优选的,步骤S32中,序列号的具体识别分类过程是:\n[0036] 将人民币序列号的第1个字符按字母类别识别,第3个字符按混合类别进行识别,第2个字符根据第3个字符的类型确定识别类型,第4至第10个字符按数字类型进行识别。\n[0037] 本发明相对于现有技术具有如下的优点及效果:\n[0038] 1、本发明采用顶帽变换改善输入纸币图像二值化效果以提取纸币所在矩形区域,同时通过获取二值边缘图像的数目,消除小面积的噪声点,最后只留下纸币图像,再综合四向法和最远点法来准确求出纸币图像的四个顶点坐标。\n[0039] 2、本发明使用基于单应矩阵的纸币图像配准方法使得不同角度、光照、背景、分辨率的输入纸币图像均能输出为规整化的纸币俯视图,增强鲁棒性。\n[0040] 3、利用基于人民币纸币的图像纹理特征和预处理后的配准纸币图像快速判断纸币的正反面与是否倒立,能快速定位至序列号。\n[0041] 4、本发明结合全局阈值和局部阈值的优点提出了一种分块二值化的方法,使得序列号字符既不会产生红色字符丢失的现象,也不会出现黑色字符过厚的情况。\n[0042] 5、本发明通过研究容易识别错误的字符结构,提出一种改进的13点特征值提取法,充分利用了字符特点;利用与总像素值的比值克服了字符厚度不一导致特征值不同的缺点;针对易混淆字符的特点进行特征值的多重提取;基于人民币纸币序列号规律,根据字符位置和类型的关系逐个识别字符,使字符识别准确率达到99.8%。\n附图说明\n[0043] 图1是本发明人民币纸币序列号识别系统框图;\n[0044] 图2是基于单应矩阵的纸币图像配准过程图;\n[0045] 图3是本发明综合多重特征提取和分位置识别序列号的SVM方法的识别流程图。\n具体实施方式\n[0046] 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。\n[0047] 实施例\n[0048] 如图1所示,本实施例人民币序列号识别方法,包括下述步骤,首先,对纸币图像进行预处理,包括改善严重曝光、提取纸币图像和配准纸币图像等处理。在灰度化的基础上结合顶帽变换以改善纸币图像二值化效果;提取纸币图像所在的矩形区域以去除无关的背景信息;利用单应矩阵对图像进行配准以校正倾斜和消除透视效应;先根据纸币二值图像像素点的左右分布来判断倒转情况,再根据纸币左下方区域的颜色色调来判断正反面情况。该预处理算法能够很好地适配后续序列号定位、分割和识别,而且对于输入纸币图像的约束要求低,在任意角度、光照、分辨率下,只要直观上可清晰辨认,则可输出正立纸币图像。\n[0049] 其次,用两步法来对序列号进行定位,即第一步使用先验知识大致定位,第二步对序列号进行准确定位;然后使用垂直投影法对序列号进行字符分割,操作简单、快速。\n[0050] 最后,通过对原13点特征值法的不足的分析研究,提出了一种改进的13点特征提取法,然后结合多重特征提取的方法,针对易混淆字符的特点专门进行特征值的多重提取,再根据字符位置与类型的关系采用支持向量机(Support Vector Machine,SVM)进行识别,获得较高的识别准确率。\n[0051] 预处理时,由于对输入图像的要求比较低,对前背景对比不足的纸币图像,可以进行顶帽变换(即从原有的图像中减去开运算后的图像来消除背景)来改善曝光。\n[0052] 经过上述变换,有助于后续提取纸币所在矩形区域的操作,以去除无关的背景信息。\n[0053] 为了能够输出统一的纸币俯视图,我们采用了基于单应矩阵的纸币图像配准方法,对纸币图像进行校正倾斜、消除透视效应。设配准前的纸币图像为I,配准完成后得到配准后的纸币图像J,其中J=HI,H为单应矩阵。\n[0054] 如图2所示,纸币图像配准的处理步骤如下:\n[0055] (1)建立原图的四个顶角坐标与配准图的对应关系;\n[0056] (2)由坐标对应关系求出单应矩阵H;\n[0057] (3)利用H求出J中在I的对应点;\n[0058] (4)采用双线性插值法对J赋值。\n[0059] 在求原图的四个顶角坐标时,我们根据纸币图像的不同旋转角度作了两种分类来求得坐标点:(1)从上下左右四个方向分别寻找坐标点;(2)分四个象限分别计算二值纸币图像中非零点到对角线的距离,距离最大点为顶点。我们称这两种求顶点坐标的方法分别为四向法和最远点法。\n[0060] 为了使得求出的是正确的坐标点而不是背景图的噪声点,我们在前期处理中加入了一个获取二值图像区域边缘的处理,如果区域数大于1,则通过面积大小来消除小区域,最后只留下最大面积的区域(即纸币图像)。\n[0061] 另外,根据人民币纸币图像纹理,我们通过其二值化图像的左右两块像素值分布情况来判断纸币是否倒转,再通过左下方区域的色调来判断正反面情况。\n[0062] 例如,对于百元纸币,将纸币图像由RGB彩色图像转换到灰度图像再转换到二值图像后,从其像素点排布特征来看,序列号的上方较大片区域是白色,而如果倒转的纸币在对应的区域则有较多的黑色像素点。令二值图像中白色像素点值为1,黑色像素点值为0,则可以通过左右两片对称区域内(纸币最左(右)方1/4处的中间1/3区域)的总像素值高低来判断是否倒转。若左边大于右边,则为正立纸币图像;反之,若右边大于左边,则为倒转的纸币图像,要对纸币图像进行180度旋转。\n[0063] 在判断纸币图片是否是反面照片(无法获取序列号)的时候,使用到了RGB彩色空间的R,G,B三个分量来判别。因为百元纸币的主色调是红色,在已定位在正立图片的左方\n1/4和下方1/3的矩形区域的基础上,反面定位图的红色分量较大,而正面定位图的红色分量较少,通过比较R,G,B三者的数量关系,若R>G且R>B,则判断此纸币图片为反面图像,反之为正面图像。\n[0064] 总之,经过了纸币图像预处理,测试集中各种拍摄角度和亮度的输入纸币图像均可达到预期效果。\n[0065] 该预处理操作可适用于多种分辨率(2048×1536,1138×706,900×595,\n624×464,500×375等)、其他深色背景(黑色、棕色、红色、蓝色、紫色)以及包含其他币值或币种的纸币图像。对采集的全部1168幅图像预处理的成功率达99.83%(1166/1168,两张失败图像的背景一为白色,二为多色结合。)\n[0066] 我们提出的两步定位法充分利用了预处理的结果和人民币纸币图像特征,首先利用先验知识把序列号大致定位在配准图像左方1/4和下方1/3的矩形区域。在进行精准定位的过程中,我们发现在采用全局阈值法时,序列号左边的红色字符常常由于对比度较低很容易产生字符丢失现象;如果采用局部阈值法去比较所有点及其邻域的灰度值,则可能会出现运算速度慢、笔画断裂以及伪影等问题。因此我们提出了一种基于分块二值化的精准定位,即将序列号大致定位图分成左右两块并分别使用其全局阈值进行二值化,再拼合起来进行扫描定位,这样既继承了全局阈值法简单快速的优点,又避免了红色字符丢失和黑色字符过厚的问题。\n[0067] 本发明采用了基于多重特征提取和分位置识别的支持向量机识别方法。我们进行人民币纸币序列号识别,可以充分利用其序列号的排列规律分位置按字符类型(字母或数字)来识别。多重特征提取是指在13点特征提取的基础上,针对易混淆字符专门进行二次特征提取、三次特征提取。\n[0068] 作为对比,本实施例首先采用了一种13点特征法:把字符图像平均分为4行2列,前8个特征值为这八个部分的像素值;第9个特征值为总的像素值;第10、11个特征值分别为中间两行的像素值;第12、13个特征值分别为左右两列的像素值。对于465张测试纸币图片,均能成功进行配准、定位,分割成功率为99.78%(464/465),识别结果如表1所示。\n[0069] 表1\n[0070] \n 字母 数字 字母+数字 整张\n 正确数 866 3653 4519 361\n 错误数 62 59 121 103\n 总数 928 3712 4640 464\n 正确率 93.32% 98.41% 97.39% 77.80%\n[0071] 字符识别结果虽能达到90%以上,但是整张识别成功率却很低,而且错误字符的数量偏多,主要集中在0和8,A、N、O、U、R、X、Y等直观上易于区分的字符。因此,针对这些容易识别错误的字符,我们根据25个拼音字母(无V)和10个阿拉伯数字的字形结构和对称特点,提出了一种新的特征提取方法,同样是提取13个特征值:第1个特征值为字符宽度,第2、3个特征值为字符像素值的上下、左右比值;第4-12个特征值为字符的九宫格内像素值;第13个特征值为总像素值。识别结果如表2所示。\n[0072] 表2\n[0073] \n 字母 数字 字母+数字 整张\n 正确数 902 3707 4609 434\n 错误数 26 5 31 30\n 总数 928 3712 4640 464\n 正确率 97.20% 99.87% 99.33% 93.53%\n[0074] 由于13点特征值法提取的特征较少,所以其识别速率较高,但是识别准确率还有上升空间。从表2可看出字母的错误率较高,主要是D、G、O、Q之间的判别错误。因此,我们针对这些字符提出了多重特征提取的方法,对易混淆字符进行二次特征提取,如O和D提取左上角和左下角的特征值,O和Q提取右下角特征值等。另外,针对一些无法用平滑滤波器消除的噪声点,我们通过对二值边缘区域数量的计算,只留下最大的边缘区域(即字符),可降低对污渍的敏感度。识别结果改善如表3所示。\n[0075] 表3\n[0076] \n 字母 数字 字母+数字 整张\n 正确数 921 3709 4630 454\n 错误数 7 3 10 10\n 总数 928 3712 4640 464\n 正确率 99.25% 99.92% 99.78% 97.84%\n[0077] 表4为本实施例识别方法与基于序贯最小优化算法(Sequential Minimal Optimization,SMO)的SVM方法以及基于神经网络的方法在字符识别上的效果对比,从表4可以看出,基于多重特征与分位置识别的新13点特征值提取可以进一步提高识别准确率,该方法同时也能保证识别速率。与基于神经网络的识别方法相比,基于支持向量机的识别方法避免了结构设计和参数优化的繁琐过程,训练时间更短,操作更为方便简单。而本算法结合了多重特征提取与分位置识别,又比基于SMO的SVM方法更具优势。如图3所示,本发明的具体识别步骤为:\n[0078] (1)输入归一化的二值序列号图像,并按步骤(2)~(4)根据人民币序列号的字符位置N依1,3,2,4,5,6,7,8,9,10的顺序逐个识别其中的字符CN;\n[0079] (2)通过位置N按字母类别、混合类别以及按数字类别进行分类识别,并判断是否是易错字符,其中第1个字符按字母类别识别,第3个字符按混合类别进行识别,第2个字符根据第3个字符的类型确定识别类型,第4至第10个字符按数字类型进行识别;\n[0080] (3)如果是易错字符则进一步提取特征再识别;否则直接转至下一步;\n[0081] (4)判断序列号第3个字符C3是否是字母,如果是,把第2个字符C2按数字类型识别,如果否,把第2个字符C2按字母类型识别;\n[0082] (5)完成序列号图像中所有字符识别后,输出序列号识别结果。\n[0083] 表4\n[0084] \n[0085] 实验验证可知,本发明的纸币图像预处理、两步定位法、新13点特征值提取、基于多重特征和分位置识别的SVM方法等关键环节均达到了预期效果,使得对输入纸币图像的鲁棒性好,对输入图像的分辨率、拍摄角度、亮度、背景色等要求很低;定位能力强;识别速度和准确度高。\n[0086] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
法律信息
- 2022-06-28
未缴年费专利权终止
IPC(主分类): G07D 7/20
专利号: ZL 201210237888.1
申请日: 2012.07.10
授权公告日: 2014.03.26
- 2014-03-26
- 2013-01-23
实质审查的生效
IPC(主分类): G07D 7/20
专利申请号: 201210237888.1
申请日: 2012.07.10
- 2012-11-28
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |