一种图像文字定位方法及装置

发明专利有效专利

申请号：
CN201410087665.0
IPC分类号：G06K9/20;G06K9/54
申请日期：
2014-03-11
申请人：
东方网力科技股份有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种图像文字定位方法及装置
申请号	CN201410087665.0	申请日期	2014-03-11
法律状态	授权	申报国家	中国
公开/公告日	2014-06-04	公开/公告号	CN103839062A
优先权	暂无	优先权号	暂无
主分类号	G06K9/20 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06K 数据识别；数据表示；记录载体；记录载体的处理（印刷本身入B41J） G06K9/00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置（用于图表阅读或者将诸如力或现状态的机械参量的图形转换为电信号的方法或装置入G06K 11/00；语音识别入G10L 15/00）〔1，7〕 G06K9/20 图像捕获〔3〕	IPC分类号	G;0;6;K;9;/;2;0;;;G;0;6;K;9;/;5;4查看分类表>
申请人	东方网力科技股份有限公司	申请人地址	北京市朝阳区京阜通东大街6号方恒国际中心B座9层变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	东方网力科技股份有限公司	当前权利人	东方网力科技股份有限公司
发明人	田波;郑慧;许建
代理机构	北京集佳知识产权代理有限公司	代理人	王宝筠

摘要

本申请公开了一种图像文字定位方法及装置，该方法通过获取目标图像序列，所述目标图像序列中包含有多帧目标图像，分别对每帧目标图像进行水平方向及竖直方向的加权投影，并将加权投影结果进行合并，以生成文字区域，进而在所述文字区域中，依据文字高度值、边缘点密度及区域主方向确定文字备选区域，将目标图像中对应文字备选区域相加，进一步获取目标连通域，最后利用区域重投影方法，对目标连通域进行校正从而获得目标文字区域。

1.一种图像文字定位方法，其特征在于，包括：
获取目标图像序列；其中，所述目标图像序列中包含有多帧目标图像；
分别获取每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域；
将符合预设间距阈值的相邻水平投影峰值域进行合并，且将符合所述预设间距阈值的相邻竖直投影峰值域合并，以生成所述每帧目标图像中的文字区域；其中，所述峰值域合并的规则为判断两个相邻峰值域之间的间隔是否小于预设间隔阈值；若是，对所述两个相邻峰值域进行合并；其中，所述合并是指将相邻峰值域进行区间融合；
在所述每帧目标图像中的文字区域中，确定文字备选区域；其中，所述文字备选区域的文字高度值与预设文字目标高度值的差值满足预设差值范围、且边缘点密度大于第一预设阈值、且区域主方向符合预设区域方向；
将每帧所述目标图像中对应的文字备选区域相加，获取各个文字备选区域内的各个像素点个数和值，将个数和值大于预设个数阈值的多个像素点确定为目标像素点；
依据各个目标像素点，获取目标连通域；
判断所述目标连通域是否处于同一行；
若是，对所述目标连通域进行区域重投影，获得目标文字区域；
否则，将所述目标连通域确定为目标文字区域。
2.根据权利要求1所述的方法，其特征在于，在所述分别获取所述每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域之前，还包括:
预先设置文字目标高度值；
其中，所述预先设置文字目标高度值，包括：
依据隔帧差分法，将各个符合预设间隔数的两帧所述目标图像的像素值相减获得像素差值；
依据第一预设阈值，对各个像素差值进行二值化处理生成二值化图像；其中，所述二值化图像的像素值包括0及255；
依据预设膨胀系数，分别对各个所述二值化图像进行膨胀化处理获得膨胀图像；
确定各个所述膨胀图像中的标准连通域；
依据各个标准连通域，确定文字目标高度值。
3.根据权利要求2所述的方法，其特征在于，所述确定各个所述膨胀图像中的标准连通域，包括：
遍历各个所述膨胀图像，将所述膨胀图像中像素值为255的像素点确定为标准像素点；
在各个所述膨胀图像中，将间隔在8邻域范围内的各个标准像素点组成备选连通域；
将符合预设形状的备选连通域确定为标准连通域。
4.根据权利要求2所述的方法，其特征在于，所述依据所述各个标准连通域确定文字目标高度值，包括：
将所述各个标准连通域相加，获得各个像素点个数累加值；
将个数累加值大于第二预设阈值的像素点组成的区域确定为文字候选区域；
将所述文字候选区域的高度值确定为文字目标高度值。
5.根据权利要求1所述的方法，其特征在于，所述分别获取所述每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域，包括：
获取所述目标图像序列中各帧图像的边缘图像；
对各个所述边缘图像进行二值化处理生成二值化图像；
分别获取各个二值化图像在水平方向上的多个水平投影峰值域，及在竖直方向上的多个竖直投影峰值域。
6.一种图像文字定位装置，其特征在于，包括：
图像序列获取模块，用于获取目标图像序列；其中，所述目标图像序列中包含有多帧目标图像；
投影峰值域获取模块，用于分别获取每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域；
投影峰值域合并模块，用于将符合预设间距阈值的相邻水平投影峰值域进行合并，且将符合所述预设间距阈值的相邻竖直投影峰值域合并，以生成所述每帧目标图像中的文字区域；其中，所述峰值域合并的规则为判断两个相邻峰值域之间的间隔是否小于预设间隔阈值；若是，对所述两个相邻峰值域进行合并；其中，所述合并是指将相邻峰值域进行区间融合；
备选区域获取模块，用于在所述每帧目标图像中的文字区域中，确定文字备选区域；其中，所述文字备选区域的文字高度值与预设文字目标高度值的差值满足预设差值范围、且边缘点密度大于第一预设阈值、且区域主方向符合预设区域方向；
目标像素点获取模块，用于将每帧所述目标图像中对应的文字备选区域相加，获取各个文字备选区域内的各个像素点个数和值，将个数和值大于预设个数阈值的多个像素点确定为目标像素点；
目标连通域获取模块，用于依据各个目标像素点，获取目标连通域；
校正判断模块，用于判断所述目标连通域是否处于同一行；若是，触发区域校正模块；
否则，触发区域确定模块；
区域校正模块，用于对所述目标连通域进行区域重投影，获得目标文字区域；
区域确定模块，用于将所述目标连通域确定为目标文字区域。
7.根据权利要求6所述的装置，其特征在于，还包括:
文字高度值设置模块，用于预先设置文字目标高度值；
其中，所述文字高度值设置模块包括：
帧差图像生成子模块，用于在分别获取所述每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域之前，依据隔帧差分法，将各个符合预设间隔数的两帧所述目标图像的像素值相减获得像素差值；
二值化图像生成子模块，用于依据第一预设阈值，对各个像素差值进行二值化处理生成二值化图像；其中，所述二值化图像的像素值包括0及255；
膨胀图像获取子模块，用于依据预设膨胀系数，分别对各个所述二值化图像进行膨胀化处理获得膨胀图像；
标准连通域确定子模块，用于确定各个所述膨胀图像中的标准连通域；
文字高度值确定子模块，用于依据各个标准连通域，确定文字目标高度值。
8.根据权利要求7所述的装置，其特征在于，所述标准连通域确定子模块包括：
标准像素点确定单元，用于遍历各个所述膨胀图像，将所述膨胀图像中像素值为255的像素点确定为标准像素点；
备选连通域生成单元，用于在各个所述膨胀图像中，将间隔在8邻域范围内的各个标准像素点组成备选连通域；
标准连通域确定单元，用于将符合预设形状的备选连通域确定为标准连通域。
9.根据权利要求7所述的装置，其特征在于，所述文字高度值确定子模块包括：
像素累加值获取单元，用于将所述各个标准连通域相加，获得各个像素点个数累加值；
候选区域生成单元，用于将个数累加值大于第二预设阈值的像素点组成的区域确定为文字候选区域；
目标高度值确定单元，用于将所述文字候选区域的高度值确定为文字目标高度值。
10.根据权利要求6所述的装置，其特征在于，所述投影峰值域获取模块包括：
边缘图像获取子模块，用于获取所述目标图像序列中各帧图像的边缘图像；
二值化图像生成子模块，用于对各个所述边缘图像进行二值化处理生成二值化图像；
峰值域获取子模块，用于分别获取各个二值化图像在水平方向上的多个水平投影峰值域，及在竖直方向上的多个竖直投影峰值域。

一种图像文字定位方法及装置\n技术领域\n[0001] 本申请涉及图像处理技术领域，尤其是一种图像文字定位方法及装置。\n背景技术\n[0002] OSD（On Screen Display）文字，是在图像中显示的一种文字，主要是利用字符发生芯片在显示器的屏幕上显示需要的字符信息。OSD文字的应用方式分为两类，静态应用及动态应用。其中，静态应用指的是，不需要接收外部数据，即可在视频信号上显示相对固定形式字符信息，其中具体应用之一为，在监控视频信号中叠加拍摄日期、时间、位置等信息。\n[0003] 在上述OSD文字的监控应用中，由于监控场景的复杂性，导致视频图像黑白亮度存在变化，进而显示在该监控视频图像中的OSD文字会根据图像亮度产生跳变。\n[0004] 目前，还没有形成一种在具有上述特征的视频图像中进行OSD文字定位的技术方案。\n发明内容\n[0005] 有鉴于此，本申请提供了一种图像文字定位方法及装置，用以解决现有技术中并不存在一种可以在具有一定特征的视频图像中进行OSD文字定位技术方案的问题。本申请的技术方案如下：\n[0006] 一种图像文字定位方法，包括：\n[0007] 获取目标图像序列；其中，所述目标图像序列中包含有多帧目标图像；\n[0008] 分别获取所述每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域；\n[0009] 将符合预设间距阈值的相邻水平投影峰值域进行合并，且将符合所述预设间距阈值的相邻竖直投影峰值域合并，以生成所述每帧目标图像中的文字区域；\n[0010] 在所述每帧目标图像中的文字区域中，确定文字备选区域；其中，所述文字备选区域的文字高度值与预设文字目标高度值的差值满足预设差值范围、且边缘点密度大于第一预设阈值、且区域主方向符合预设区域方向；\n[0011] 将每帧所述目标图像中对应的文字备选区域相加，获取各个文字备选区域内的各个像素点个数和值，将个数和值大于预设个数阈值的多个像素点确定为目标像素点；\n[0012] 依据所述各个目标像素点，获取目标连通域；\n[0013] 判断所述目标连通域是否处于同一行；\n[0014] 若是，对所述目标连通域进行区域重投影，获得目标文字区域；\n[0015] 否则，将所述目标连通域确定为目标文字区域。\n[0016] 上述方法，优选的，在所述分别获取所述每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域之前，还包括:\n[0017] 预先设置文字目标高度值；\n[0018] 其中，所述预先设置文字目标高度值，包括：\n[0019] 依据隔帧差分法，将各个符合预设间隔数的两帧所述目标图像的像素值相减获得像素差值；\n[0020] 依据第一预设阈值，对所述各个像素差值进行二值化处理生成二值化图像；其中，所述二值化图像的像素值包括0及255；\n[0021] 依据预设膨胀系数，分别对各个所述二值化图像进行膨胀化处理获得膨胀图像；\n[0022] 确定各个所述膨胀图像中的标准连通域；\n[0023] 依据所述各个标准连通域，确定文字目标高度值。\n[0024] 上述方法，优选的，所述确定各个所述膨胀图像中的标准连通域，包括：\n[0025] 遍历各个所述膨胀图像，将所述膨胀图像中像素值为255的像素点确定为标准像素点；\n[0026] 在所述各个膨胀图像中，将间隔在8邻域范围内的各个标准像素点组成备选连通域；\n[0027] 将符合预设形状的备选连通域确定为标准连通域。\n[0028] 上述方法，优选的，所述依据所述各个标准连通域确定文字目标高度值，包括：\n[0029] 将所述各个标准连通域相加，获得各个像素点个数累加值；\n[0030] 将个数累加值大于第二预设阈值的像素点组成的区域确定为文字候选区域；\n[0031] 将所述文字候选区域的高度值确定为文字目标高度值。\n[0032] 上述方法，优选的，所述分别获取所述每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域，包括：\n[0033] 获取所述目标图像序列中各帧图像的边缘图像；\n[0034] 对各个所述边缘图像进行二值化处理生成二值化图像；\n[0035] 分别获取各个二值化图像在水平方向上的多个水平投影峰值域，及在竖直方向上的多个竖直投影峰值域。\n[0036] 本申请还提供了一种图像文字定位装置，包括：\n[0037] 图像序列获取模块，用于获取目标图像序列；其中，所述目标图像序列中包含有多帧目标图像；\n[0038] 投影峰值域获取模块，用于分别获取所述每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域；\n[0039] 投影峰值域合并模块，用于将符合预设间距阈值的相邻水平投影峰值域进行合并，且将符合所述预设间距阈值的相邻竖直投影峰值域合并，以生成所述每帧目标图像中的文字区域；\n[0040] 备选区域获取模块，用于在所述每帧目标图像中的文字区域中，确定文字备选区域；其中，所述文字备选区域的文字高度值与预设文字目标高度值的差值满足预设差值范围、且边缘点密度大于第一预设阈值、且区域主方向符合预设区域方向；\n[0041] 目标像素点获取模块，用于将每帧所述目标图像中对应的文字备选区域相加，获取各个文字备选区域内的各个像素点个数和值，将个数和值大于预设个数阈值的多个像素点确定为目标像素点；\n[0042] 目标连通域获取模块，用于依据所述各个目标像素点，获取目标连通域；\n[0043] 校正判断模块，用于判断所述目标连通域是否处于同一行；若是，触发区域校正模块；否则，触发区域确定模块；\n[0044] 区域校正模块，用于对所述目标连通域进行区域重投影，获得目标文字区域；\n[0045] 区域确定模块，用于将所述目标连通域确定为目标文字区域。\n[0046] 上述装置，优选的，还包括:\n[0047] 文字高度值设置模块，用于预先设置文字目标高度值；\n[0048] 其中，所述文字高度值设置模块包括：\n[0049] 帧差图像生成子模块，用于在分别获取所述每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域之前，依据隔帧差分法，将各个符合预设间隔数的两帧所述目标图像的像素值相减获得像素差值；\n[0050] 二值化图像生成子模块，用于依据第一预设阈值，对所述各个像素差值进行二值化处理生成二值化图像；其中，所述二值化图像的像素值包括0及255；\n[0051] 膨胀图像获取子模块，用于依据预设膨胀系数，分别对各个所述二值化图像进行膨胀化处理获得膨胀图像；\n[0052] 标准连通域确定子模块，用于确定各个所述膨胀图像中的标准连通域；\n[0053] 文字高度值确定子模块，用于依据所述各个标准连通域，确定文字目标高度值。\n[0054] 上述装置，优选的，所述标准连通域确定子模块包括：\n[0055] 标准像素点确定单元，用于遍历各个所述膨胀图像，将所述膨胀图像中像素值为\n255的像素点确定为标准像素点；\n[0056] 备选连通域生成单元，用于在所述各个膨胀图像中，将间隔在8邻域范围内的各个标准像素点组成备选连通域；\n[0057] 标准连通域确定单元，用于将符合预设形状的备选连通域确定为标准连通域。\n[0058] 上述装置，优选的，所述文字高度值确定子模块包括：\n[0059] 像素累加值获取单元，用于将所述各个标准连通域相加，获得各个像素点个数累加值；\n[0060] 候选区域生成单元，用于将个数累加值大于第二预设阈值的像素点组成的区域确定为文字候选区域；\n[0061] 目标高度值确定单元，用于将所述文字候选区域的高度值确定为文字目标高度值。\n[0062] 上述装置，优选的，所述投影峰值域获取模块包括：\n[0063] 边缘图像获取子模块，用于获取所述目标图像序列中各帧图像的边缘图像；\n[0064] 二值化图像生成子模块，用于对各个所述边缘图像进行二值化处理生成二值化图像；\n[0065] 峰值域获取子模块，用于分别获取各个二值化图像在水平方向上的多个水平投影峰值域，及在竖直方向上的多个竖直投影峰值域。\n[0066] 由以上的技术方案可知，本申请提供了一种图像文字定位方法及装置，该方法通过获取目标图像序列，所述目标图像序列中包含有多帧目标图像，分别对每帧目标图像进行水平方向及竖直方向的加权投影，并对加权投影结果进行合并，以生成文字区域，进而在所述文字区域中，依据文字高度值、边缘点密度及区域主方向确定文字备选区域，将目标图像中对应文字备选区域相加，进一步获取目标连通域，最后利用区域重投影方法，对目标连通域进行校正从而获得目标文字区域。\n附图说明\n[0067] 为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。\n[0068] 图1为本申请提供的一种图像文字定位方法实施例一的流程图；\n[0069] 图2为本申请提供的目标图像序列的一个示例图；\n[0070] 图3为本申请提供的目标图像进行加权投影处理后的一个示例图；\n[0071] 图4为本申请提供的峰值域进行合并的一个示例图；\n[0072] 图5为本申请提供的经过峰值域合并后生成的文字区域的一个示例图；\n[0073] 图6为本申请提供的应用方法实施例一进行图像处理的一个图像结果示例图；\n[0074] 图7为本申请提供的一种图像文字定位方法实施例二的部分流程图；\n[0075] 图8为本申请提供的隔帧差分法的一个示例图；\n[0076] 图9为本申请提供的一种图像文字定位方法实施例二的一具体部分流程图；\n[0077] 图10为本申请提供的获取文字目标高度值的一个示例图；\n[0078] 图11为本申请提供的一种图像文字定位方法实施例三的部分流程图；\n[0079] 图12为本申请提供的将图像进行边缘检测的一个示例图；\n[0080] 图13为本申请提供的一种图像文字定位装置实施例一的结构示意图；\n[0081] 图14为本申请提供的一种图像文字定位装置实施例二的部分结构示意图。\n具体实施方式\n[0082] 下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。\n[0083] 请参阅图1，其示出了本申请提供的一种图像文字定位方法实施例一的流程图，本实施例可以包括：\n[0084] 步骤101：获取目标图像序列；其中，所述目标图像序列中包含有多帧目标图像。\n[0085] 需要说的是，所述目标图像序列是从监控视频图像中获得的。其中，所述监控视频图像可以但不限定于从住宅小区、办公场所、道路交通等监控装置中获取到的视频图像。所述监控装置进行监控的场景较为复杂，人员活动频繁、生成的监控视频图像具有黑白亮度跳变的特征。其中，所述监控视频图像中包含有OSD（On Screen Display）文字，如拍摄地点、日期、时间等，且所述OSD文字处于所述视频图像的特定区域，如顶部、底部等。\n[0086] 请参阅图2，其示出了目标图像序列的一个示例图，该目标图像序列中包含有六帧目标图像。其中，生成所述目标图像序列的过程可以是，获取监控装置生成的连续多帧图像，在所述多帧图像中每间隔N帧选取一帧图像，直至选取的图像帧数满足预设帧数时停止选取，组成备选图像序列，并依据OSD文字在所述监控视频图像中的特定位置特征，在所述备选图像序列中的各帧图像中截取包含所述特定区域的部分感兴趣图像，从而组成目标图像序列。当然，所述部分图像可以但不限定于依据图像的高度进行的截取，即截取视频图像高度的一部分。\n[0087] 当然，所述目标图像序列的生成过程并不限定于此，还可以是在所述多帧图像中间隔N帧选取一帧图像时，同时进行部分感兴趣图像的截取，进而选取出的图像即是目标图像序列。\n[0088] 需要说明的是，所述目标图像序列中包含的所述多帧图像即是部分感兴趣图像。\n[0089] 步骤102：分别获取所述每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域。\n[0090] 其中，计算所述目标图像序列中每帧目标图像在水平方向上的加权投影，及在竖直方向上的加权投影。请参阅图3，其示出了对目标图像进行加权投影处理后的一个示例图，其中，(a)图为原始目标图像，(b)图表示目标图像在水平方向的加权投影，(c)图表示目标图像在竖直方向的加权投影。在所述两个加权投影图中分别查找水平方向上的各个投影峰值域及竖直方向上的投影峰值域。\n[0091] 步骤103：将符合预设间距阈值的相邻水平投影峰值域进行合并，且将符合所述预设间距阈值的相邻竖直投影峰值域合并，以生成所述每帧目标图像中的文字区域。\n[0092] 其中，峰值域合并的规则为，判断两个相邻峰值域之间的间隔是否小于预设间隔阈值，若是，对该两个相邻峰值域进行合并。其中，所述合并指的是将相邻峰值域进行区间融合，例如，请参阅图4，其示出了对峰值域进行合并的一个示例图，图示中的1、2为相邻峰值域，3为1、2合并后的峰值域。当然，该示例图对水平投影峰值域的合并及竖直投影峰值域合并均适用。\n[0093] 另外，可选的，所述预设间隔阈值为a*预设文字目标高度值，其中，所述a为[1-3]中的任意值。\n[0094] 将所述各个符合上述合并规则的峰值域进行合并后，进而生成所述每帧目标图像中的文字区域，所述文字区域的个数可以为一个，也可以为多个，具体数目由目标图像决定。\n[0095] 步骤104：在所述每帧目标图像中的文字区域中，确定文字备选区域；其中，所述文字备选区域的文字高度值与预设文字目标高度值的差值满足预设差值范围、且边缘点密度大于第一预设阈值、且区域主方向符合预设区域方向。\n[0096] 具体的，在每帧目标图像的各个文字区域中，确定文字备选区域的过程可以是，依据预设文字目标高度值对文字区域进行初次筛选，即判断文字区域的高度值与所述预设文字目标高度值的差值是否满足预设的差值范围，例如，文字区域高度值为1cm，预设文字目标高度值为1.3cm，预设差值范围为(-0.5,0.5)cm，则所述文字区域符合初次筛选标准。\n[0097] 请参阅图5，其示出了经过峰值域合并后生成的文字区域的一个示例图。在该图中，存在由步骤103生成的三个文字区域：区域1、区域2及区域3。其中，区域3明显为车辆区域，该区域3的高度与其他两个区域存在差别，则利用预设的文字目标高度值对所述三个区域进行筛选，将明显大于或小于所述预设文字目标高度值的区域范围去除，即可以将区域3进行去除。\n[0098] 由于OSD文字区域具有边缘丰富，边缘点密度大，且文字边缘方向大多在水平方向和竖直方向的特点，可以依据边缘点密度及区域主方向对文字区域进行筛选。\n[0099] 其中，计算所述文字区域边缘点密度的方式为，生成所述目标图像的边缘图，统计每帧目标图像的总面积，并计算该帧目标图像中文字区域的边缘点面积，进而依据所述边缘点面积及所述目标图像总面积获得所述文字区域的边缘点密度。\n[0100] 其中，计算所述文字区域主方向的方式为计算文字区域边缘点的梯度方向，具体的，将方向量化为L个梯度方向，统计文字区域内边缘点的梯度方向，将最大的梯度方向确定为所述文字区域的主方向。则，可以认为，所述区域主方向指的是文字区域内边缘点的梯度方向中占比例最大的方向。\n[0101] 进而，利用上述方式，计算初次筛选出的文字区域的边缘点密度及区域主方向，将边缘点密度大于第一预设阈值且区域主方向符合预设区域方向的文字区域最终确定为文字备选区域。其中，所述第一预设阈值可以为[0.1-0.3]范围内的任意数值；所述预设区域方向包括水平方向及竖直方向。\n[0102] 步骤105：将每帧所述目标图像中对应的文字备选区域相加，获取各个文字备选区域内的各个像素点个数和值，将个数和值大于预设个数阈值的多个像素点确定为目标像素点。\n[0103] 其中，本步骤为多帧目标图像融合的过程。具体的，将每帧目标图像中确定出的文字备选区域的对应像素点进行累加。所述累加为个数累加，即分别检测各个目标图像中的对应的文字备选区域，若该区域中的像素点被检测到，则对该像素点的个数加1，从而获得该文字区域内各个像素点的个数和值，并将该个数和值与预设个数阈值进行比对，当比对结果为该个数和值大于所述预设个数阈值时，将该像素点确定为目标像素点。\n[0104] 其中，所述预设个数阈值可以为目标图像的帧数*b，其中，所述b为比例系数，取值范围为0-1之间。当然，b的取值越大，对文字备选区域的要求越高，从而定位出的目标文字区域越少。\n[0105] 步骤106：依据所述各个目标像素点，获取目标连通域。\n[0106] 其中，本步骤为由目标像素点生成目标连通域的过程。具体的，遍历所述文字备选区域，在所述目标像素点的8邻域范围内，查找是否存在其他的目标像素点，若是，则继续以查找到的其他目标像素点为中心确定该中心的8邻域范围内是否还存在其他的目标像素点，重复所述步骤，直至某个目标像素点的8邻域范围内不存在目标像素点。则将查找的各个目标像素点围成的矩形区域作为目标连通域。其中，所述目标连通域的个数可以是一个，也可以是多个，具体个数由目标图像中的文字备选区域的情况决定。\n[0107] 步骤107：判断所述目标连通域是否处于同一行；若是，执行步骤108；否则，执行步骤109。\n[0108] 步骤108：对所述目标连通域进行区域重投影，获得目标文字区域。\n[0109] 其中，所述区域重投影是对目标连通域对目标文字区域投影不准确的区域进行校正，可以将已经确定的目标连通区域与OSD文字对齐。\n[0110] 步骤109：将所述目标连通域确定为目标文字区域。\n[0111] 由以上的技术方案可知，本实施例提供了一种图像文字定位方法，该方法通过获取目标图像序列，所述目标图像序列中包含有多帧目标图像，分别对每帧目标图像的投影峰值域合并，以生成文字区域，进而在所述文字区域中，依据文字高度值、边缘点密度及区域主方向确定文字备选区域，将目标图像中对应文字备选区域相加，进一步获取目标连通域，最后利用区域重投影方法，对目标连通域进行校正从而获得目标文字区域。\n[0112] 请参阅图6，其为应用上述方法实施例的图像处理过程的一个示例图其中：\n[0113] 图(a)为原始目标图像；\n[0114] 图(b)为预设文字目标高度值图像，该图中的H代表预设文字目标高度值；\n[0115] 图(c)为步骤102对原始目标图像进行加权投影后的区域结果图；\n[0116] 图(d)为步骤103对加权投影峰值域合并后生成的文字区域结果图；\n[0117] 图(e)为步骤104在文字区域中确定出的文字备选区域结果图；\n[0118] 图(f)为步骤105及106对多帧目标图像中的文字备选区域进行融合后的区域结果图；\n[0119] 图(g)为步骤108对目标连通域进行区域重投影后的校正区域结果图。\n[0120] 由图(g)可以看出，该图(g)中的区域1、区域2、区域3及区域4为最终的图像OSD文字的定位结果区域，从该图中可以看出，应用本方法实施例可以实现对监控视频图像中的OSD文字的精确定位。\n[0121] 请参阅图7，其示出了本申请提供的一种图像文字定位方法实施例二的部分流程图，上述方法实施例中的步骤101之后步骤102之前，还可以包括以下步骤：预先设置文字目标高度值；其中，所述预先设置文字目标高度值具体为：\n[0122] 步骤201：依据隔帧差分法，将各个符合预设间隔数的两帧所述目标图像的像素值相减获得像素差值。\n[0123] 具体的，将间隔预设间隔数的两帧图像作为一个分组，将该分组内的两帧图像的像素值进行相减获得像素差值。其中，所述预设间隔数可以为1帧，可以为多帧。另外，所述每帧目标图像可以和多帧图像进行差分。\n[0124] 具体的，请参阅图8，其示出了隔帧差分法的一个示例图，在该图中包含M帧目标图像，即图像帧1、图像帧N+1、图像帧2N+1、……图像帧n，所述预设间隔数为1，每帧目标图像分别与3帧图像进行差分，则将所述图像帧1分别与图像帧2N+1、3N+1、4N+1进行差分，从而获得各个帧差图像。\n[0125] 步骤202：依据第一预设阈值，对所述各个像素差值进行二值化处理生成二值化图像；其中，所述二值化图像的像素值包括0及255。\n[0126] 其中，所述二值化处理过程，可以认为是将所述各个像素差值与第一预设阈值进行比较，若所述各个像素差值大于所述预设阈值，则将对应的像素点的像素值设置为255，否则置为0。\n[0127] 可选的，所述第一预设阈值为[0.1-0.4]范围内的任意一数值。\n[0128] 步骤203：依据预设膨胀系数，分别对各个所述二值化图像进行膨胀化处理获得膨胀图像。\n[0129] 其中，所述预设膨胀系数包括水平方向膨胀系数M及竖直方向膨胀系数N，将所述各个帧差图像分别乘以所述M及N，从而得到各个膨胀图像。可选的，所述M及N可以为1-20内的任意数值。\n[0130] 步骤204：确定各个所述膨胀图像中的标准连通域。\n[0131] 请参阅图9，其示出了本步骤的一个具体流程，包括：\n[0132] 步骤301：遍历各个所述膨胀图像，将所述膨胀图像中像素值为255的像素点确定为标准像素点。\n[0133] 其中，膨胀的图像为二值化图像，该二值化图像中各个像素点的像素值包括0及\n255两种，其中，所述像素值为255的像素点为步骤202中大于第一预设阈值的点，即可能为OSD文字区域的像素点，将此些像素点确定为标准像素点，用于计算连通域。\n[0134] 步骤302：在所述各个膨胀图像中，将间隔在8邻域范围内的各个标准像素点组成备选连通域。\n[0135] 具体的，在一个所述膨胀图像中，确定某个标准像素点，以该标准像素点为中心进行8邻域范围的查找，查找是否存在其他的标准像素点，若是，再以查找到的标准像素点为中心进行8邻域范围的查找，直至该8邻域范围内不存在标准像素点为止。最后，将在该轮查找过程中查找到的所有像素点组成的矩形区域确定为一个备选连通域。\n[0136] 相应的，重复所述确定备选连通域的过程，直至遍历尽该膨胀图像中的所有标准像素点。\n[0137] 同样的，将上述步骤重复应用于对每个膨胀图像，以确定每个膨胀图像中的各个备选连通域。\n[0138] 步骤303：将符合预设形状的备选连通域确定为标准连通域。\n[0139] 其中，步骤303确定的标准连通域可能为运动目标连通域、OSD文字连通域、噪声点域等，由于各个不同内容的连通域的形状和大小具有明显差别，则依据所述形状和大小的不同，将符合预设形状的备选连通域确定为标准连通域。\n[0140] 步骤205：依据所述各个标准连通域，确定文字目标高度值。\n[0141] 具体的，本步骤可以包括：\n[0142] 将所述各个标准连通域相加，获得各个像素点个数累加值。\n[0143] 将个数累加值大于第二预设阈值的像素点组成的区域确定为文字候选区域。\n[0144] 其中，所述第二预设阈值可以是帧差图像的个数乘以[0.5-0.8]之后获得数值。\n[0145] 将所述文字候选区域的高度值确定为文字目标高度值。\n[0146] 请参阅图10，其示出了本步骤获取文字目标高度值的一个示例图。该图中，左边三张图像中各自图像中的白色区域为标准连通域，右边一张图像中的白色区域为依据所述三个标准连通域获取到的累加区域，该累加区域的高度值H为文字目标高度值。\n[0147] 由以上技术方案可以实现，依据目标图像确定文字目标高度值，该目标高度值用于对目标图像中的文字区域进行初步筛选。\n[0148] 请参阅图11，其示出了本申请提供的一种图像文字定位方法实施例三的部分流程图，上述方法实施例一的步骤102可以通过以下方式实现：\n[0149] 步骤401：获取所述目标图像序列中各帧图像的边缘图像。\n[0150] 其中，所述获取过程可以为，利用模板A与目标图像进行卷积，从而获得水平方向的边缘图像Gx；利用模板B与目标图像进行卷积，从而获得竖直方向的边缘图像Gy，将所述水平方向的边缘图像Gx与所述竖直方向的边缘图像Gy相加，从而获得目标图像对应的边缘图像。\n[0151] 具体的，本步骤可以利用下述(1)-(3)式表示：\n[0152]\n[0153]\n[0154] ImageSobel=|Gx|+|Gy| (3)\n[0155] 其中：所述ImageSobel为边缘图像；所述模板A与所述模板B分别为：\n[0156]\n[0157] 步骤402：对各个所述边缘图像进行二值化处理生成二值化图像。\n[0158] 具体的，将所述边缘图像的像素值与预设阈值进行比对，将大于预设阈值的像素点的像素值置为255，否则置为0，从而获得二值化图像。其中，可选的，所述预设阈值可以为(0-0.4]中的任意数值。\n[0159] 请参阅图12，其为将图像进行边缘检测的一个示例图，其中，(a)图为原始图像，(b)图为边缘检测后的图像。\n[0160] 步骤403：分别获取各个二值化图像在水平方向上的多个水平投影峰值域，及在竖直方向上的多个竖直投影峰值域。\n[0161] 其中，对所述二值化图像进行加权投影，从而获得所述二值化图像水平方向及竖直方向上的各个投影峰值域。\n[0162] 对应的上述方法实施例一，本申请还提供了一种图像文字定位装置，请参阅图13，其示出了一种图像文字定位装置实施例一的结构示意图，本实施例可以包括：\n[0163] 图像序列获取模块501，用于获取目标图像序列；其中，所述目标图像序列中包含有多帧目标图像；\n[0164] 投影峰值域获取模块502，用于分别获取所述每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域；\n[0165] 投影峰值域合并模块503，用于将符合预设间距阈值的相邻水平投影峰值域进行合并，且将符合所述预设间距阈值的相邻竖直投影峰值域合并，以生成所述每帧目标图像中的文字区域；\n[0166] 备选区域获取模块504，用于在所述每帧目标图像中的文字区域中，确定文字备选区域；其中，所述文字备选区域的文字高度值与预设文字目标高度值的差值满足预设差值范围、且边缘点密度大于第一预设阈值、且区域主方向符合预设区域方向；\n[0167] 目标像素点获取模块505，用于将每帧所述目标图像中对应的文字备选区域相加，获取各个文字备选区域内的各个像素点个数和值，将个数和值大于预设个数阈值的多个像素点确定为目标像素点；\n[0168] 目标连通域获取模块506，用于依据所述各个目标像素点，获取目标连通域；\n[0169] 校正判断模块507，用于判断所述目标连通域是否处于同一行；若是，触发区域校正模块508；否则，触发区域确定模块509；\n[0170] 区域校正模块508，用于对所述目标连通域进行区域重投影，获得目标文字区域；\n[0171] 区域确定模块509，用于将所述目标连通域确定为目标文字区域。\n[0172] 需要说明的是，请参阅图14，其示出了本申请提供的一种图像文字定位装置实施例二的部分结构示意图，在上述装置实施例的基础上，还可以包括：\n[0173] 文字高度值设置模块601，用于预先设置文字目标高度值。\n[0174] 其中，所述文字高度值设置模块601具体包括：\n[0175] 帧差图像生成子模块6011，用于在分别获取所述每帧目标图像各自对应的多个水平投影峰值域及多个竖直投影峰值域之前，依据隔帧差分法，将各个符合预设间隔数的两帧所述目标图像的像素值相减获得像素差值；\n[0176] 二值化图像生成子模块6012，用于依据第一预设阈值，对所述各个像素差值进行二值化处理生成二值化图像；其中，所述二值化图像的像素值包括0及255；\n[0177] 膨胀图像获取子模块6013，用于依据预设膨胀系数，分别对各个所述二值化图像进行膨胀化处理获得膨胀图像；\n[0178] 标准连通域确定子模块6014，用于确定各个所述膨胀图像中的标准连通域。\n[0179] 文字高度值确定子模块6015，用于依据所述各个标准连通域，确定文字目标高度值。\n[0180] 其中，上述装置实施例二中的标准连通域确定子模块6013可以具体包括以下单元：\n[0181] 标准像素点确定单元，用于遍历各个所述膨胀图像，将所述膨胀图像中像素值为\n255的像素点确定为标准像素点；\n[0182] 备选连通域生成单元，用于在所述各个膨胀图像中，将间隔在8邻域范围内的各个标准像素点组成备选连通域；\n[0183] 标准连通域确定单元，用于将符合预设形状的备选连通域确定为标准连通域。\n[0184] 其中，上述装置实施例二中的文字高度值确定子模块6014可以具体包括以下单元：\n[0185] 像素累加值获取单元，用于将所述各个标准连通域相加，获得各个像素点个数累加值；\n[0186] 候选区域生成单元，用于将个数累加值大于第二预设阈值的像素点组成的区域确定为文字候选区域；\n[0187] 目标高度值确定单元，用于将所述文字候选区域的高度值确定为文字目标高度值。\n[0188] 其中，上述装置实施例一中的投影峰值域获取模块502可以具体包括以下子模块：\n[0189] 边缘图像获取子模块，用于获取所述目标图像序列中各帧图像的边缘图像；\n[0190] 二值化图像生成子模块，用于对各个所述边缘图像进行二值化处理生成二值化图像；\n[0191] 峰值域获取子模块，用于分别获取各个二值化图像在水平方向上的多个水平投影峰值域，及在竖直方向上的多个竖直投影峰值域。\n[0192] 需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。\n[0193] 对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。\n对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN103336961A	2013-10-02	2013-07-22	一种交互式的自然场景文本检测方法有效专利	中国科学院自动化研究所
2	CN101833664A	2010-09-15	2010-04-21	基于稀疏表达的视频图像文字检测方法无效专利	中国科学院自动化研究所

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供