1.一种由粗到精的视频事件的快速定位方法,其特征在于,具体包括以下步骤:
(1)感兴趣空时体的粗搜索:通过对真实视频的时间分割得到一组最有可能包含查询事件的视频片断,通过对真实视频的空间分割得到每帧图像的感兴趣区域,将视频片断中每帧图像的感兴趣区域规范化后按时序堆叠起来即构成感兴趣空时体集合,其中对真实视频的时间分割包括空时兴趣点检测、对空时分体进行HOG特征和HOF特征提取、采用卡方距离方法对空时分体进行特征匹配、采用分类算法确定视频片段起止点;对真实视频的空间分割包括利用历史帧和当前帧信息构造时间显著图、根据时间显著图的计算结果确定空间感兴趣区域;
(2)感兴趣空时体集合与查询事件的精匹配:采用空时自相似性算子对查询事件和目标体的局部几何结构分别进行描述,并将所有像素的自相似体转化为向量,然后采用PCA方法提取显著特征并采用余弦相似性进行度量,构造出相关体,然后在相关体上采用全局显著性测试得到显著点,最后根据显著点分布来判断在每个目标体中是否存在与查询样本相似的事件;
具体步骤如下:
(2-1)设Q为查询事件,{V(1),V(2),…,V(p)}为感兴趣空时体的集合,将感兴趣的空时体统一地称为目标体V,采用空时自相似性算子对查询事件Q和目标体V的局部几何结构分别进行描述,具体算法如下:
(2-1-1)对于每一个像素q,采用典型的SSD标准比较其周围大小为l×m×n的片P与大小为x×y×t的空时窗口W,计算如下:
q 2
SSD(x,y,t)=∑lmn[W(x+l,y+m,t+n)-P(l,m,n)]
2
=∑lmnW(x+l,y+m,t+n)-...
2
...-2*W(x+l,y+m,t+n)*P(l,m,n)+P(l,m,n)];
2
=∑lmnW(x+l,y+m,t+n)H(l,m,n)-...
2
...-2*W(x+l,y+m,t+n)*P(l,m,n)+P(l,m,n)]
其中H(l,m,n)是一个三维的门限函数,空时窗口W包含片P的区域被定义为1,其它区域为0;SSD的计算通过FFT和IFFT实现;
(2-1-2)由步骤(2-2-1)计算出SSD后,可由以下公式求出局部自相似体:
其中分母为片大小patchsize的平方与可估的光度方差varauto的乘积;
(2-2)将步骤(2-1-2)得到的局部自相似体转为一个向量,并将所有像素上向量化的局部自相似体串接起来构成DQ和DV,用以下公式计算:
其中N为局部自相似体中像素点个数,nQ和nV分别为查询行为Q和目标体V中有效像素点个数,vec表示局部自相似体的向量化表示形式;对于查询事件样本的几何结构描述DQ,采用PCA方法通过投影矩阵 提取最大d个成分作为其显著特征
同时对于目标体几何结构描述DV,利用投影矩阵Pr得到其显著特征
(2-3)对于目标体V的每个像素i,记为Vi,计算 与所有特征向量 的余
弦相似度并求和得Si:
根据对应的像素点将Si,i=1,2,…,nV组合为与目标体V相同大小的体,则相关体由统计函数计算得到,计算公式如下:
相关体中的点值表示在此空时位置上查询事件与目标体相似的可能性;
(2-4)选取余弦相似度在置信方差δ之内的所有像素点作为显著点,即|Si|>1-δ的被认为是显著点,设定一个阈值τ,统计满足条件CVi>τ的显著点数目,如果目标体中显著点个数大于查询事件像素点个数的一定比率,则认为这一目标体至少存在一个与查询样本相似的事件,并记录目标体所在的空时位置,否则认为这一目标体不存在与查询样本相似的事件;
(3)查询事件的精确定位:采用区域增长/分裂合并技术和非最大值抑制方法进行后处理,用于控制最佳匹配显著点周围的空时区域定位;最后根据事先记录的每个目标体在真实视频中的空时位置,将目标体映射到真实视频,以Y方向上的尺寸为基准,采用固定大小的矩形边框在真实视频的每帧图像中显示视频事件的精确定位结果。
2.根据权利要求1所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(1)中对真实视频的时间分割算法具体步骤如下:
(11-1)空时兴趣点检测:首先在单一的空间和时间尺度上检测空时兴趣点,方法具体如下:首先对空时图像序列f建模: 其中,设定空间方差
为 时间方差为 则空时可分的高斯核定义为:
对于给定尺度集合 在单一的空间和时间尺度上检测空时兴趣点,取
s=1,计算空时二阶矩,并通过与高斯权重函数的卷积得:
其中一阶导数被定义为:
然后找到μ中相对较大的特征值λ1、λ2和λ3,由此需要计算函数:
3
H=det(μ)-ktrace(μ)
3
=λ1λ2λ3-k(λ1+λ2+λ3)
然后定义α=λ2/λ1,β=λ3/λ1,将H重新表示为:
3
其中若要满足H≥0,则k≤αβ/(1+α+β),f的空时兴趣点检测等价于寻找H中局部正的空时最大值在空时体中的对应点;
通过以上方法检测出空时兴趣点后,以每个检测得到的空时兴趣点为中心,在时间和空间方向上按照固定大小取得空时分体;
(11-2)空时分体特征提取:对得到的每个空时分体中的每帧图像提取其HOG特征和HOF特征,将提取得到的单帧HOG特征按时序连接起来作为整个空时分体的表观特征,将提取得到的单帧HOF特征按时序接连起来作为整个空时分体的局部运动特征,空时分体的特征由表观和运动特征共同构成;
(11-3)空时分体特征匹配:查询行为样本中第i个空时兴趣点所对应的分体用SVi表示,输入视频中第j个空时兴趣点所对应的分体用SVj表示,直方图形式的分体特征用His表示,码矩阵M中的元素Mij为His(SVi)和His(SVj)之间的卡方距离,具体计算公式如下:
其中b为每个直方图的仓库索引,计算出码矩阵M中的所有元素后,取一定阈值对码矩阵进行二值化;然后求出该空时分体的码矩阵列向量的和,得到一个向量colsum(M),若colsum(M)j>δ,δ为设定的阈值,则认为输入视频中第j个空时兴趣点所对应的空时分体是显著的;
(11-4)确定视频片段起止点:将显著空时分体的时间位置作为样本数据,记作P={P1,P2,…Pl},其中l为显著分体的个数,具体算法如下:首先将P1作为一类,假设事件之间同一动作点发生的时间间隔至少大于1秒,以30fps的视频序列为考察对象,那么同一类所包含的时间位置样本数据间隔应该在30帧以内,以此假设为根据,若P2与P1差值在30帧之内,则初步判断P2与P1相近,将P1和P2归为一类,通过计算该类内整个样本数据的均值来重新确定这类的中心;若否,则确定P2为一个新类别,依此类推,直到判断完所有显著空时分体,并得到一系列的类,然后忽略样本数少于查询事件中显著分体个数的30%的孤立类,剩下的每个类则代表真实视频中分割出的时间片断,将每个类内的最小值Tstart和最大值Tend取出来,然后设定一个阈值Ex,用于补偿可能产生的分割误差,那么[Tstart-Ex,Tend+Ex]区间内的视频片断即为真实视频的时间分割结果。
3.根据权利要求2所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(11-1)中的空时分体的大小为32×32×10,32×32为所取空时分体图像大小,10指
10帧图像。
4.根据权利要求2所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(11-2)中所采用的HOG特征是在统计梯度方向8个直方图仓库的直方图并归一化消除光照的影响后得到的。
5.根据权利要求2所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(11-2)中的梯度方向直方图和光流直方图均为128维。
6.根据权利要求2所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(11-3)中的阈值为计算得到的码矩阵M中的最大元素值的20%。
7.根据权利要求1所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(1)中对真实视频的空间分割算法具体步骤如下:
(12-1)历史帧与当前帧集合的样本空间表示:设当前帧为Im0,空时体由当前帧和历史N-1帧构成,即为Im0,Im1,…,ImN-1,然后将空时体分成互不重叠的若干个空时片,每个空时片大小为M×M×N,用xi表示空时片中第i个块灰度图像的向量,则时间向量集合X为:
X={x0,x1,…,xN-1};
然后利用PCA方法从X中得到投影矩阵W和q个最主要成分,并将结果写入大小为q×N
2
的矩阵Y中,所得Y={y0,y1,…,yN-1},即X中每个M 维向量xi转变成Y中q维向量yi;
(12-2)样本空间的概率密度估计:采用非参数核密度估计方法对样本空间Y进行密度建模,得到密度估计公式为:
其中H表示样本点yi周围核的带宽矩阵;用h(yi)表示样本yi到第k个近邻点的距离,有H(yi)=h(yi)I;其中κ表示核函数,I表示与带宽矩阵相同大小的全1矩阵;
(12-3)时间显著图的计算:根据步骤(12-2)计算出的 信息,将块(r,s)的时间显著图扩展到大小为M×M的块,得到如下表示: 其中ones(M)为创建
一个大小为M×M的全1矩阵,对当前帧Im0的每个互不重叠的块重复以上计算,则得到它的整体时间显著图;
(12-4)确定空间感兴趣区域:根据时间显著图检测出视频事件中包含运动信息的空间区域,将其进行预处理和二值化后,初步提取出空间感兴趣区域。
8.根据权利要求7所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(12-2)中,采用高斯核函数,则密度估计为:
9.根据权利要求1所述的一种由粗到精的视频事件的快速定位方法,其特征在于,所述步骤(2-4)中采用假设-验证的简单方法来判断在同一目标体中是否存在多个与查询样本相似的事件,具体方法如下:假设目标体中存在两个与查询样本相似的事件,根据显著点的X-Y-T坐标将其分为两类,如果两类的中心小于设定阈值ζ,则认为只存在一个与查询样本相似的事件,并合并这两类,否则判断两个与查询样本相似的事件同时存在。