著录项信息
专利名称 | 蔬菜病害场景检测方法 |
申请号 | CN201210175727.4 | 申请日期 | 2012-05-30 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2012-10-24 | 公开/公告号 | CN102752479A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04N5/14 | IPC分类号 | H;0;4;N;5;/;1;4;;;G;0;6;T;7;/;6;0;;;G;1;0;L;1;1;/;0;0查看分类表>
|
申请人 | 中国农业大学 | 申请人地址 | 北京市海淀区圆明园西路2号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中国农业大学 | 当前权利人 | 中国农业大学 |
发明人 | 傅泽田;温皓杰;张领先;李鑫星;刘雪;苏叶 |
代理机构 | 北京路浩知识产权代理有限公司 | 代理人 | 王莹 |
摘要
本发明公开了一种蔬菜病害场景检测方法,涉及视频分析与检测技术领域,包括以下步骤:S1:检测压缩视频镜头边界点,并检测声音镜头边界点;S2:检测出声音镜头边界点后,标记声音镜头类型为语音类型或非语音类型;S3:判断声音镜头类型的改变及声音镜头与视频镜头的边界点是否重合得到场景边界检测结果。本发明的蔬菜病害场景检测方法以蔬菜病害场景的语义模型为判断依据,对视频进行场景检测时不仅考虑了镜头的时间连续性,还综合考虑音频镜头与视频镜头的相关性,因此实现了更准确地蔬菜病害场景检测。
1.一种蔬菜病害场景检测方法,其特征在于,包括以下步骤:
S1:检测压缩视频镜头边界点,并检测声音镜头边界点;
S2:检测出声音镜头边界点后,标记声音镜头类型为语音类型或非语音类型;
S3:判断声音镜头类型的改变及声音镜头与视频镜头的边界点是否重合得到场景边界检测结果;
所述步骤S1中检测压缩视频镜头边界点具体包括:
根据MPEG压缩标准从视频流中提取I帧的离散余弦变换系数;
预处理离散余弦变换系数得到I帧的直流系数,根据直流系数建立以直流系数为行、I帧为列的二维表;
计算所述二维表中相邻两I帧的直流系数的差异度,若差异度大于预定阈值,则该两帧的分界点作为镜头边界点,将该两I帧划分在不同的镜头,否则将该两I帧归为同一镜头,继续比较下一相邻两I帧,将得到镜头序列用向量Sk=(sk)表示;
所述步骤S1中检测声音镜头边界点具体包括:
通过预设的响度阈值消除背景声,计算前景声的短时平均能量;
根据预设的能量阈值和持续时间阈值检测语音中的停顿,以所述停顿作为所述声音镜头的边界点,从而得到声音镜头序列;
所述步骤S2具体包括:
计算音频信号的过零率协方差和基本频率能量比;
若过零率协方差高于过零率阈值,且基本频率能量比高于能量比阈值,则该段音频信号对应的声音镜头为语音类型;
所述步骤S3具体包括:
S3.1:检测两相邻声音镜头fi与fi+1的类型ti与ti+1是否相同,相同继续,否则进入步骤S3.4;
S3.2:检测两相邻声音镜头类型为语音或非语音,当ti和ti+1为语音时继续,否则进入步骤S3.5;
S3.3:检测是否有与声音镜头边界点fi重合的视频镜头边界点sj,即当声音镜头边界点对应的视频帧同为视频镜头边界点对应的视频帧时继续,否则进入步骤S3.5;
S3.4:标记场景边界点fsi,fsi=fi,得到蔬菜病害场景序列,以向量FSk=(fsk,tk)表示;
S3.5:i=i+1,转入步骤S3.1检测下一声音镜头,当fi=V时,检测结束,输出蔬菜病害场景检测结果,以向量FSk=(fsk,tk)表示,V表示原始视频总长度。
2.如权利要求1所述的蔬菜病害场景检测方法,其特征在于,计算相邻两I帧的直流系数的差异度的方式如下:
其中,D(li,li+1)表示相邻两I帧的直流系数的差异度,li和li+1代表第i和i+1个I帧,c(li,k)和c(li+1,k)为第i和i+1个I帧的k块的直流系数,max为取最大值函数。
3.如权利要求1所述的蔬菜病害场景检测方法,其特征在于,计算前景声的短时平均能量的方式如下:
2
En=∑m[x(m)w(n-m)]
其中,m为音频帧,x(m)为音频信号的离散采样时间,n表示短时平均能量特征的时间索引,w(·)是长度为N的汉明窗口函数,当0≤n≤N-1时,w(n)=1;否则w(n)=0,En为n时刻的短时平均能量。
4.如权利要求1所述的蔬菜病害场景检测方法,其特征在于,计算音频信号的过零率协方差的方式如下:
其中,sgn[·]为符号函数,u为过零率均值,x(m)为离散音频信号,w(n)为方窗,zm为一个时间窗口内通过零点的次数,Zi为每个时间窗口的过零率。
5.如权利要求1所述的蔬菜病害场景检测方法,其特征在于,计算基本频率能量比的方式如下:
其中,H表示音频信号频率范围,X(k)表示频率范围在基本频率以内的信号所带能量,X(i)表示所有频率带的能量。
蔬菜病害场景检测方法\n技术领域\n[0001] 本发明涉及视频分析与检测技术领域,特别涉及一种蔬菜病害场景检测方法。\n背景技术\n[0002] 病害是制约我国蔬菜生产可持续发展的重要因素,而农民对信息的接受能力差导致蔬菜病害诊断困难,病害致使菜农损失严重。随着网络中蔬菜病害防治视频节目的日益增多,视频检索系统能够满足农民学习病害防治知识的迫切性与实时性,同时提高病害知识学习的准确性与趣味性。\n[0003] 场景是一组表达同一主题的镜头的集合,是视频语义分析的基础。场景检测的准确性,对视频数据库的建立、实现基于内容的视频检索具有重要的意义。\n[0004] 近年来,关于场景检测方法的研究有很多,常用方法有以下几种:\n[0005] 1、基于帧差的场景检测方法,类似于镜头边界检测算法,其主要原理是在场景的边界处会有较大的帧差,但是该方法只考虑了镜头的开始帧和结束帧,而镜头的开始帧和结束帧往往不能代表镜头的全部内容。\n[0006] 2、基于视觉特征的聚类算法,其主要思想是将具有相同视觉特征的镜头聚类为场景。\n[0007] 3、基于场景转移图的方法,该算法通过设定一个相似度阈值,把相似度大于该阈值的镜头组合成场景,再根据时间上的相邻关系形成场景转移图。\n[0008] 4、应用统计学方法,该类算法使用统计学方法对镜头进行聚类。\n[0009] 5、基于电影剪辑技术的方法,该方法利用电影剪辑技术构造视频的高层描述,采用聚类的方法对视频流分割后的镜头进行相似性归并,形成镜头的层次化组织,从而实现对视频流的分级浏览,但是该方法无法体现镜头间的时序关系。\n[0010] 蔬菜病害防治视频以压缩形式存储传输,其主体为绿色植物,具有运动强度小,视觉特征相似等特点,其视频中语音是对视频的精确描述,视频是对语音的视觉补充。上述方案只是基于视频的场景检测方案,场景检测的准确性差。因此,结合视频和音频的场景检测是亟待解决的问题。\n发明内容\n[0011] (一)要解决的技术问题\n[0012] 本发明要解决的技术问题是:如何实现更准确地蔬菜病害场景检测。\n[0013] (二)技术方案\n[0014] 为解决上述技术问题,本发明提供了一种蔬菜病害场景检测方法,包括以下步骤:\n[0015] S1:检测压缩视频镜头边界点,并检测声音镜头边界点;\n[0016] S2:检测出声音镜头边界点后,标记声音镜头类型为语音类型或非语音类型;\n[0017] S3:判断声音镜头类型的改变及声音镜头与视频镜头的边界点是否重合得到场景边界检测结果。\n[0018] 其中,所述步骤S1中检测压缩视频镜头边界点具体包括:\n[0019] 根据MPEG压缩标准从视频流中提取I帧的离散余弦变换系数;\n[0020] 预处理离散余弦变换系数得到I帧的直流系数,根据直流系数建立以直流系数为行、I帧为列的二维表;\n[0021] 计算所述二维表中相邻两I帧的直流系数的差异度,若差异度大于预定阈值,则该两帧的分界点作为镜头边界点,将该两I帧划分在不同的镜头,否则将该两I帧归为同一镜头,继续比较下一相邻两I帧,将得到镜头序列用向量Sk=(sk)表示。\n[0022] 其中,计算相邻两I帧的直流系数的差异度的方式如下:\n[0023] \n[0024] 其中,D(li,li+1)表示相邻两I帧的直流系数的差异度,li和li+1代表第i和i+1个I帧,c(li,k)和c(li+1,k)为第i和i+1个I帧的k块的直流系数,max为取最大值函数。\n[0025] 其中,所述步骤S1中检测声音镜头边界点具体包括:\n[0026] 通过预设的响度阈值消除背景声,计算前景声的短时平均能量;\n[0027] 根据预设的能量阈值和持续时间阈值检测语音中的停顿,以所述停顿作为所述声音镜头的边界点,从而得到声音镜头序列。\n[0028] 其中,计算前景声的短时平均能量的方式如下:\n[0029] En=∑m[x(m)w(n-m)]2\n[0030] 其中,m为音频帧,x(m)为音频信号的离散采样时间,n表示短时平均能量特征的时间索引,w(·)是长度为N的汉明窗口函数,当0≤n≤N-1时,w(n)=1;否则w(n)=\n0,En为n时刻的短时平均能量。\n[0031] 其中,所述步骤S2具体包括:\n[0032] 计算音频信号的过零率协方差和基本频率能量比;\n[0033] 若过零率协方差高于过零率阈值,且基本频率能量比高于能量比阈值,则该段音频信号对应的声音镜头为语音类型。\n[0034] 其中,计算音频信号的过零率协方差的方式如下:\n[0035] \n[0036] \n[0037] 其中,sgn[·]为符号函数,u为过零率均值,x(m)为离散音频信号,w(n)为方窗,zm为一个时间窗口内通过零点的次数,Zi为每个时间窗口的过零率。\n[0038] 其中,计算基本频率能量比的方式如下:\n[0039] \n[0040] 其中,H表示音频信号频率范围,X(k)表示频率范围在基本频率以内的信号所带能量,X(i)表示所有频率带的能量。\n[0041] 其中,所述步骤S3具体包括:\n[0042] S3.1:检测两相邻声音镜头fi与fi+1的类型ti与ti+1是否相同,相同继续,否则进入步骤S3.4;\n[0043] S3.2:检测两相邻声音镜头类型为语音或非语音,当ti和ti+1为语音时继续,否则进入步骤S3.5;\n[0044] S3.3:检测是否有与声音镜头边界点fi重合的视频镜头边界点sj,即当声音镜头边界点对应的视频帧同为视频镜头边界点对应的视频帧时继续,否则进入步骤S3.5;\n[0045] S3.4:标记场景边界点fsi,fsi=fi,得到蔬菜病害场景序列,以向量FSk=(fsk,tk)表示;\n[0046] S3.5:i=i+1,转入步骤S3.1检测下一声音镜头,当fi=V时,检测结束,输出蔬菜病害场景检测结果,以向量FSk=(fsk,tk)表示,V表示原始视频总长度。\n[0047] (三)有益效果\n[0048] 本发明的蔬菜病害场景检测方法对视频进行场景检测时不仅考虑了镜头的时间连续性,还综合考虑音频镜头与视频镜头的相关性,因此实现了更准确地蔬菜病害场景检测。\n附图说明\n[0049] 图1是本发明实施例的一种蔬菜病害场景检测方法流程图。\n具体实施方式\n[0050] 下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。\n[0051] 从人类感知与知识学习的角度来说,蔬菜病害防治视频场景的语义包含如下特征:\n[0052] a)蔬菜病害场景中的内容主要包含症状描述与病害防治两个方面:一段完整的症状描述场景包含一个部位在某一时期的症状表现;一段完整的病害防治场景包含防治措施中的某一步骤。因此,这些镜头在声音与图像上有时间相关性。\n[0053] b)蔬菜病害场景中的声场包括解说和过渡音乐两部分,一个解说场景中的声音应该包括至少一句完整的语音,属于语音类型的声音镜头;而过渡音乐场景因无停顿点,其长度等同于一个非语音类型的声音镜头。\n[0054] c)声音镜头类型的改变意味着场景语义的转变。\n[0055] 针对以上语义特征,本发明提出了一种基于声像融合的蔬菜病害场景检测方法,流程如图1所示。\n[0056] 检测压缩视频镜头边界点。具体方式为:对蔬菜病害防治视频以MPEG形式存储,由于视频运动强度小,只对I帧的提取8×8块离散余弦变换(discrete cosine transform,DCT)系数,经预处理得到I帧的直流(direct current,DC)系数以减少数据计算量,DC系数是I帧图像的主要信息携带者。以DC系数为行、I帧为列构建二维表。每一I帧可视为元素,每一DC系数可视为每一I帧的属性(李向伟,李战明,张明新,王娟,韦哲.一种基于压缩域的镜头检测算法.兰州理工大学学报.2008;(06):97-101)。\n[0057] 求相邻两帧的DC系数的差异度,计算公式如下:\n[0058] \n[0059] 其中,D(li,li+1)表示相邻两I帧的DC系数的差异度,li和li+1代表第i和i+1个I帧,c(li,k)和c(li+1,k)为第i和i+1个I帧的k块的DC系数,max为取最大值函数。\n[0060] 将D(li,li+1)与给定的差异度阈值进行比较,如果大于该阈值,则该两I帧的分界点作为镜头边界点,该两I帧划分在不同的镜头,即:前一帧属于上一镜头,后一帧属于下一镜头,如果小于阈值,则分到同一镜头。得到的视频镜头序列以向量Sk=(sk)表示,其中sk<V,V表示原始视频总长度。该差异度阈值根据实际情况不同而取值不同。\n[0061] 检测视频的声音镜头边界点。具体方式为:采用基于感知的响度度量方法通过设定响度阈值消除背景声,然后计算前景声的短时平均能量,计算公式如下:\n[0062] En=∑m[x(m)w(n-m)]2\n[0063] 其中m为音频帧,一般取20ms一帧,x(m)为音频信号的离散采样时间,n表示短时平均能量特征的时间索引,w(·)是长度为N的汉明窗口函数,当0≤n≤N-1时,w(n)=1;否则w(n)=0,En为n时刻的短时平均能量。视频中一句解说结束时的停顿处短时平均能量非常小,通过设定能量阈值和持续时间阈值可把明显的停顿检测出来(2.史迎春,方鹏飞,周献中.综合利用声视特征的新闻视频结构化模型.计算机工程与应用.2004;\n40(32):4),从而得到声音镜头序列,以向量Fk=(fk,tk)表示。短时平均能量指在一个时间片段内音频信号所聚集的平均能量,它被用来把静音与其它三类音频信息区别出来,因为静音的短时平均能量基本为零。当在n时刻的短时平均能量小于能量阈值且持续时间大于持续时间阈值时,该n时刻即为停顿时刻,这两个阈值根据实际情况不同而取值不同。其中:fk<V,fk表示声音镜头覆盖的视频帧序列;tk∈{0,1},是声音镜头标记位,表示声音镜头的类型。\n[0064] 声音镜头分类。具体方式为:利用过零率协方差和基本频率能量比将声音镜头分类为语音和非语音(吴飞,庄越挺,张引,潘云鹤.基于隐马尔可夫链的音频语义检索.模式识别与人工智能.2001;(01):104-8)。\n[0065] 过零率指音频信号在一个时间片段内通过零点的次数,计算公式如下:\n[0066] \n[0067] 其中sgn[·]为符号函数,x(m)为离散音频信号,w(n)为方窗,zm为一个时间窗口内通过零点的次数,Zi为每个时间窗口的过零率。\n[0068] 过零率协方差的计算公式为:\n[0069] \n[0070] 其中u为过零率均值。\n[0071] 音乐的频率一般稳定在一定的频率范围,过零率变化较为缓慢,过零率协方差也很低。在语音过程中,每个单词开始和结束时的平均过零率均提高,而在发音过程中平均过零率基本固定。既语音镜头过零率变化大,过零率协方差也就大。\n[0072] 基本频率能量比是基本频率(0~1500Hz)所带能量占总频率所带能量的比值,其计算公式为:\n[0073] \n[0074] 其中H表示信号频率范围,X(k)表示频率范围在基本频率以内的信号所带能量,X(i)表示所有频率带的能量。由于对话信号能量主要集中在0~1.5KHz,其它音频信号的频率分布比较广或集中在高频部分。因此语音信号的基本频率能量比较高。\n[0075] 当一段音频信号的过零率协方差和基本频率能量比都很高时,就可以判断这段声音镜头为语音类型。将判断结果存入声音镜头标记位tk,其中语音类型的声音镜头标记为tk=1;非语音类型的声音镜头标记为tk=0。\n[0076] 蔬菜病害场景检测。具体方式为:根据声音镜头类型的改变及声音镜头与视频镜头的边界点是否重合得到场景边界检测结果,包括以下步骤:\n[0077] 1)检测两相邻声音镜头fi与fi+1的类型ti与ti+1是否相同,相同继续,否则进入步骤4);\n[0078] 2)检测两相邻声音镜头类型为语音或非语音,即当ti=ti+1=1时继续,否则进入步骤5);\n[0079] 3)检测声音镜头边界点fi是否有与之重合的视频镜头边界点sj,即当声音镜头边界点对应的视频帧同为视频镜头边界点对应的视频帧时继续,否则进入步骤5);\n[0080] 4)标记场景边界点fsi,fsi=fi,得到蔬菜病害场景序列,以向量FSk=(fsk,tk)表示。\n[0081] 5)i=i+1,转入步骤1)检测下一声音镜头。\n[0082] 当fi=V时,检测结束,输出蔬菜病害场景检测结果,以向量FSk=(fsk,tk)表示。\n[0083] 以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
法律信息
- 2014-12-03
- 2012-12-19
实质审查的生效
IPC(主分类): H04N 5/14
专利申请号: 201210175727.4
申请日: 2012.05.30
- 2012-10-24
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2010-02-17
|
2009-06-01
| | |
2
| |
2005-08-24
|
2005-01-07
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |