著录项信息
专利名称 | 一种图像主要目标的定位与识别方法 |
申请号 | CN201410100575.0 | 申请日期 | 2014-03-18 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2014-05-28 | 公开/公告号 | CN103824067A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/00 | IPC分类号 | G;0;6;K;9;/;0;0;;;G;0;6;K;9;/;3;2查看分类表>
|
申请人 | 北京理工大学 | 申请人地址 | 北京市海淀区中关村南大街5号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京理工大学 | 当前权利人 | 北京理工大学 |
发明人 | 李侃;白琳;徐琛 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
本发明涉及一种图像主要目标定位与识别方法,属于数字图像处理领域。其具体操作步骤为:①从待识别图像中识别单体目标;②从待识别图像中识别关系目标;③确定候选主要目标区域;④从候选主要目标区域中确定主要目标。本发明提出的一种图像主要目标定位与识别方法,可以在待识别图像中快速识别图像主要目标,该方法适用于计算机快速自动发现、定位冗长视频中包含犯罪活动或犯罪分子的关键帧。
1.一种图像主要目标的定位与识别方法,其特征在于:其具体操作步骤为:
步骤一、从待识别图像中识别单体目标,操作步骤包括:
步骤1.1:轮廓模型集合中包含单体轮廓模型和关系轮廓模型;单体轮廓模型和关系轮廓模型均为m×n的矩阵模型,其中,m、n∈(0,300),且m、n均为正整数;依次使用轮廓模型集合中的每个单体轮廓模型对待识别图像进行步骤1.2的操作;
步骤1.2:使用当前单体轮廓模型,以逐像素的方法遍历待识别图像,将完全匹配成功的像素区域,用正好能覆盖的矩形框标记出来;
经过步骤一的操作,可以得到待识别图像中的单体目标;
步骤二、从待识别图像中识别关系目标,操作步骤包括:
步骤2.1:依据搜索关键词,从轮廓模型集合中的关系模型子集中找到含有关键词的关系模型;
步骤2.2:依次使用步骤2.1得到的关系轮廓模型对待识别图像进行步骤2.3的操作;
步骤2.3:使用当前关系轮廓模型,以逐像素的方法遍历待识别图像,将完全匹配成功的像素区域,用正好能覆盖的矩形框标记出来,得到关系目标;
经过步骤二的操作,可以得到待识别图像中的关系目标;
步骤三、确定候选主要目标区域;
依次查看步骤二得到的每个关系目标是否包含步骤一得到的某个单体目标,如包含,则将该关系目标设定为候选主要目标区域;候选主要目标区域构成候选主要目标区域集合,用符号W表示,W={w1,w2,……,wr},其中,r为候选主要目标区域的数量,wi为候选主要目标区域,1≤i≤r;
步骤四、从候选主要目标区域中确定主要目标,操作步骤包括:
步骤4.1:对步骤三得到的候选主要目标区域集合W中的候选主要目标区域wi依次进行步骤4.2至步骤4.5的操作;
步骤4.2:对候选主要目标区域wi使用17种不同的滤波器进行滤波,提取34维特征向量;
步骤4.3:将候选主要目标区域wi分割为K个大小为3×3像素的图像块,K是候选主要目标区域wi能够分成的图像块的个数;
步骤4.4:遍历候选主要目标区域wi中的3×3像素的图像块,用符号kj表示当前3×3像素的图像块,将图像块kj扩展为3种不同分辨率的图像,分别是原始分辨率图像、1/3原始分辨率图像和1/9原始分辨率图像;
步骤4.5:使用联合高斯马尔科夫随机场,求解公式(2)的最大似然概率计算候选主要目标区域wi的绝对深度值;
其中,P(d|X;θ,σ)表示最大似然概率,也是候选主要目标区域wi在3种分辨率下的最有可能处于的绝对深度值;Z是归一化参数;exp()表示e的指数函数;K表示候选主要目标区域wi中3×3像素的图像块数量;dj(s)代表图像块j在分辨率s中的相对深度,dj(s)的取值范围是(0,80),单位为米;s的取值为1或1/3或1/9;xj表示图像块j的绝对深度向量,xj的取值范围是(0,80),单位为米;θ、σ1、σ2是模型参数;Ns代表在尺度s下与图像块j相邻的四个图像块;
步骤4.6:设定阈值,将绝对深度值小于阈值的所有图像块标记为主要目标区域,主要目标区域中的对象即为图像中的主要目标。
2.如权利要求1所述的一种图像主要目标的定位与识别方法,其特征在于:步骤四步骤
4.2中所述17种不同的滤波器为采用9种遮罩滤波器、2种颜色通道滤波器和6种纹理梯度滤波器。
3.如权利要求1或2所述的一种图像主要目标的定位与识别方法,其特征在于:步骤四步骤4.2中所述对候选主要目标区域wi使用17种不同的滤波器进行滤波,提取34维特征向量的具体方法是:通过公式(1)在两种不同的维度下,计算候选主要目标区域和滤波器的卷积,获得34维的特征向量;
其中,Ei表示候选主要目标区域wi的34维特征向量;(x,y)表示候选主要目标区域wi的第x行第y列的像素点;I(x,y)表示候选主要目标区域wi的灰度值矩阵;Fp(x,y)表示17中滤波器中的第p个滤波器;k的取值为1、2,分别表示两种不同的维度。
一种图像主要目标的定位与识别方法\n技术领域\n[0001] 本发明涉及一种图像主要目标定位与识别方法,属于数字图像处理领域。\n背景技术\n[0002] 随着人工智能技术的不断发展,如何实现计算机自主认识周围环境、模仿人类自主理解周围世界,已成为当前以及今后很长一段时间计算机、人工智能技术的主要研究目标。实现计算机自主认识周围环境、自主理解周围世界的关键环节——实现图像主要目标定位与识别。图像主要目标是指处于原始图像中央区域内,处于较浅深度的目标。图像主要目标定位与识别技术是目前图像处理研究领域的一个热点、难点,其具有很宽广的应用前景。例如:在反恐维安等警方调查活动中,实现计算机自动发现、定位犯罪份子等。随着监控视频探头的普及与应用,越来越成为辅助警方分析犯罪活动,抓捕罪犯的有力帮手。由于监控视频拍摄的视频图像一般都几个小时,甚至几天的时长,而犯罪活动一般只有短短的几分钟。想要从冗长的视频录像中发现、定位犯罪活动的时间,分析犯罪过程,目前只能完全依靠警员长时间的观看视频录像来确定。这不仅耗费了大量的人力,而且花费时间也比较长,降低了第一时间抓捕罪犯的机率。\n[0003] 目前,图像主要目标定位与识别研究仍处于初期阶段。大部分的研究工作仍处于单个目标的识别与定位,并不能有效的确认图像中的主要目标。\n[0004] 美国伊利诺伊州大学香槟分校的Pedro F.Felzenszwalb博士和他的团队开创性的提出了轮廓模型(Deformable Part Model)较好的实现了图像中各种目标的定位与识别。开启了图像目标识别研究领域的新时代,但是轮廓模型并不能分析、定位图像的主要目标。\n[0005] 美国普林斯顿大学的Li.L.J博士和Fei-Fei.L博士的研究团队长期致力于图像分割与目标识别的研究工作,在数字图像的场景识别与目标定位研究中取得了很好的效果。\n他们通过构建联合概率模型,实现了计算机自动定位与识别图像中的各种目标,实现各种目标的简单文字标注,但是没能找出图像的主要目标。\n[0006] 美国卡内基.梅隆大学的A.Gupta教授领导的研究团队和美国伊利诺伊州大学香槟分校的Ali Farhadi博士的研究团队以概率模型为基础,进行了大量关于图像目标定位与识别的研究。A.Gupta教授领导的研究团队提出一种基于贝叶斯方法的概率模型,通过计算各种类型的图像中不同目标出现的概率,来提高图像中的各种目标定位与识别的准确性。Ali Farhadi博士的研究团队通过采用改进的轮廓模型,提高图像中各种目标的定位与识别的准确性。而且他们还开创性的提出了图像语言短语(Visual Phrases)来发现图像中的各种目标之间的特定关系,并通过统计的方法试图找出图像中的主要目标。\n[0007] 因此,需要设计一种更符合人类认知过程的、更加高效的计算机图像识别方法,实现计算机快速自动发现、定位冗长视频中包含犯罪活动或犯罪分子的关键帧。\n发明内容\n[0008] 本发明的目的是为了提供一种图像主要目标的定位与识别方法,实现计算机快速自动发现、定位冗长视频中包含犯罪活动或犯罪分子的关键帧。\n[0009] 本发明的目的是通过以下技术方案实现的。\n[0010] 一种图像主要目标的定位与识别方法,其具体操作步骤为:\n[0011] 步骤一、从待识别图像中识别单体目标,操作步骤包括:\n[0012] 步骤1.1:轮廓模型(Deformable Part Models)集合中包含单体轮廓模型和关系轮廓模型。单体轮廓模型和关系轮廓模型均为m×n的矩阵模型,其中,m、n∈(0,300),且m、n均为正整数。依次使用轮廓模型集合中的每个单体轮廓模型对待识别图像进行步骤1.2的操作。\n[0013] 步骤1.2:使用当前单体轮廓模型,以逐像素的方法遍历待识别图像,将完全匹配成功的像素区域,用正好能覆盖的矩形框标记出来。\n[0014] 经过步骤一的操作,可以得到待识别图像中的单体目标。\n[0015] 步骤二、从待识别图像中识别关系目标,操作步骤包括:\n[0016] 步骤2.1:依据搜索关键词,从轮廓模型集合中的关系模型子集中找到含有关键词的关系模型。\n[0017] 步骤2.2:依次使用步骤2.1得到的关系轮廓模型对待识别图像进行步骤2.3的操作。\n[0018] 步骤2.3:使用当前关系轮廓模型,以逐像素的方法遍历待识别图像,将完全匹配成功的像素区域,用正好能覆盖的矩形框标记出来,得到关系目标。\n[0019] 经过步骤二的操作,可以得到待识别图像中的关系目标。\n[0020] 步骤三、确定候选主要目标区域。\n[0021] 依次查看步骤二得到的每个关系目标是否包含步骤一得到的某个单体目标,如包含,则将该关系目标设定为候选主要目标区域。候选主要目标区域构成候选主要目标区域集合,用符号W表示,W={w1,w2,……,wr},其中,r为候选主要目标区域的数量,wi为候选主要目标区域,1≤i≤r。\n[0022] 步骤四、从候选主要目标区域中确定主要目标,操作步骤包括:\n[0023] 步骤4.1:对步骤三得到的候选主要目标区域集合W中的候选主要目标区域wi依次进行步骤4.2至步骤4.5的操作。\n[0024] 步骤4.2:对候选主要目标区域wi使用17种不同的滤波器进行滤波,提取34维特征向量。所述17种不同的滤波器为9种遮罩(Law’s Masks)滤波器、2种颜色通道滤波器和6种纹理梯度滤波器。\n[0025] 所述对候选主要目标区域wi使用17种不同的滤波器进行滤波,提取34维特征向量的具体方法是:通过公式(1)在两种不同的维度下,计算候选主要目标区域和滤波器的卷积,获得34维的特征向量。\n[0026]\n[0027] 其中,Ei表示候选主要目标区域wi的34维特征向量;(x,y)表示候选主要目标区域wi的第x行第y列的像素点;I(x,y)表示候选主要目标区域wi的灰度值矩阵;Fp(x,y)表示17中滤波器中的第p个滤波器;k的取值为1、2,分别表示两种不同的维度。\n[0028] 步骤4.3:将候选主要目标区域wi分割为K个大小为3×3像素的图像块,K是候选主要目标区域wi能够分成的图像块的个数。\n[0029] 步骤4.4:遍历候选主要目标区域wi中的3×3像素的图像块,用符号kj表示当前3×\n3像素的图像块,将图像块kj扩展为3种不同分辨率的图像,非别是原始分辨率图像、1/3原始分辨率图像和1/9原始分辨率图像。\n[0030] 步骤4.5:使用联合高斯马尔科夫随机场,求解公式(2)的最大似然概率计算候选主要目标区域wi的绝对深度值。\n[0031]\n[0032] 其中,P(d|X;θ,σ)表示最大似然概率,也是候选主要目标区域wi在3种分辨率下的最有可能处于的绝对深度值;Z是归一化参数;exp()表示e的指数函数;K表示候选主要目标区域wi中3×3像素的图像块数量;dj(s)代表图像块j在分辨率s中的相对深度,dj(s)的取值范围是(0,80),单位为米;s的取值为1或1/3或1/9;xj表示图像块j的绝对深度向量,xj的取值范围是(0,80),单位为米;θ、σ1、σ2是模型参数;Ns代表在尺度s下与图像块j相邻的四个图像块。\n[0033] 步骤4.6:设定阈值,将绝对深度值小于阈值的所有图像块标记为主要目标区域,主要目标区域中的对象即为图像中的主要目标。\n[0034] 本发明提出的一种图像主要目标定位与识别方法,可以在待识别图像中快速识别图像主要目标,该方法适用于计算机快速自动发现、定位冗长视频中包含犯罪活动或犯罪分子的关键帧。\n附图说明\n[0035] 图1为本发明具体实施方式中的待识别图像;\n[0036] 图2为本发明具体实施方式中的待识别图像中的单体目标;\n[0037] 其中,1-第一单体目标;2-第二单体目标;3-第三单体目标;4-第四单体目标;\n[0038] 图3为本发明具体实施方式中的待识别图像中的关系目标;\n[0039] 其中,5-第一关系目标;6-第二关系目标;\n[0040] 图4为本发明具体实施方式中的待识别图像中的候选主要目标区域;\n[0041] 其中,7-第一候选主要目标区域;8-第二候选主要目标区域;\n[0042] 图5为本发明具体实施方式中的待识别图像中的主要目标区域。\n[0043] 其中,9-主要目标区域。\n具体实施方式\n[0044] 为了更好的说明本发明的技术方案,下面通过1个实施例,对本发明做进一步说明。\n[0045] 本实施例中待识别图像为一张监控视频拍摄的偷盗自行车图像,如图1所示,从图\n1中识别主要目标的操作步骤如下:\n[0046] 步骤一、从待识别图像中识别单体目标,操作步骤包括:\n[0047] 步骤1.1:轮廓模型集合中包含单体轮廓模型和关系轮廓模型。单体轮廓模型和关系轮廓模型均为m×n的矩阵模型,其中,m、n∈(0,300),且m、n均为正整数。单体轮廓模型包括自行车轮廓模型、瓶子轮廓模型、人轮廓模型、汽车轮廓模型、椅子轮廓模型、狗轮廓模型、马轮廓模型和沙发轮廓模型。依次使用轮廓模型集合中的每个单体轮廓模型对待识别图像进行步骤1.2的操作。\n[0048] 步骤1.2:使用当前单体轮廓模型,以逐像素的方法遍历待识别图像,将完全匹配成功的像素区域,用正好能覆盖的矩形框标记出来。待识别图像图1中识别出4个单体目标,如图2中的方框1至4所示。\n[0049] 步骤二、从待识别图像中识别关系目标,操作步骤包括:\n[0050] 步骤2.1:因为要查找盗车人的图像,因此搜索关键词设定为“人”和“自行车”,依据搜索关键词,从轮廓模型集合中的关系模型子集中找到含有关键词的关系模型。关系模型为“人和自行车”模型。\n[0051] 步骤2.2:依次使用步骤2.1得到的关系轮廓模型对待识别图像进行步骤2.3的操作。\n[0052] 步骤2.3:使用当前关系轮廓模型,以逐像素的方法遍历待识别图像,将完全匹配成功的像素区域,用正好能覆盖的矩形框标记出来,得到关系目标,如图3中的方框5和方框\n6所示。\n[0053] 步骤三、确定候选主要目标区域。\n[0054] 依次查看步骤二得到的每个关系目标是否包含步骤一得到的某个单体目标,如包含,则将该关系目标设定为候选主要目标区域。候选主要目标区域构成候选主要目标区域集合W={w1,w2}。2个候选主要目标区域如图4中的方框7和方框8所示,分别为第一候选主要目标区域和第二候选主要目标区域。\n[0055] 步骤四、从候选主要目标区域中确定主要目标,操作步骤包括:\n[0056] 步骤4.1:对步骤三得到的候选主要目标区域集合W中的候选主要目标区域wi依次进行步骤4.2至步骤4.5的操作。\n[0057] 步骤4.2:对候选主要目标区域wi使用9种遮罩(Law’s Masks)滤波器、2种颜色通道滤波器和6种纹理梯度滤波器共17种滤波器进行滤波,提取34维特征向量。\n[0058] 所述对候选主要目标区域wi使用17种不同的滤波器进行滤波,提取34维特征向量的具体方法是:通过公式(1)在两种不同的维度下,计算候选主要目标区域和滤波器的卷积,获得34维的特征向量。\n[0059] 步骤4.3:将候选主要目标区域wi分割为K个大小为3×3像素的图像块,K是候选主要目标区域wi能够分成的图像块的个数。\n[0060] 步骤4.4:遍历候选主要目标区域wi中的3×3像素的图像块,用符号kj表示当前3×\n3像素的图像块,将图像块kj扩展为3种不同分辨率的图像,非别是原始分辨率图像、1/3原始分辨率图像和1/9原始分辨率图像。\n[0061] 步骤4.5:使用联合高斯马尔科夫随机场,求解公式(2)的最大似然概率计算候选主要目标区域wi的绝对深度值。\n[0062] 经过上述步骤的操作,得到第一候选主要目标区域的绝对深度值为5米;第二候选主要目标区域的绝对深度值为1米。\n[0063] 步骤4.6:设定阈值为3米,将绝对深度值小于阈值的第二候选主要目标区域标记为主要目标区域,主要目标区域中的对象即为图像中的主要目标。\n[0064] 本发明的主要内容已通过上述优选实例作了详细介绍,应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2012-10-03
|
2012-05-11
| | |
2
| |
2012-12-19
|
2012-06-20
| | |
3
| |
2012-09-19
|
2011-03-10
| | |
4
| |
2013-08-14
|
2013-05-17
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |