著录项信息
专利名称 | 一种视音频智能分析管控系统 |
申请号 | CN201010150978.8 | 申请日期 | 2010-04-20 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2010-08-11 | 公开/公告号 | CN101799876A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06K9/66 | IPC分类号 | G;0;6;K;9;/;6;6;;;H;0;4;N;7;/;1;8查看分类表>
|
申请人 | 王巍 | 申请人地址 | 北京市海淀区中关村北二街水清木华园1楼1501室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 王巍 | 当前权利人 | 王巍 |
发明人 | 王巍 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
本发明涉及计算机视觉领域和人工智能领域,特别是智能视频分析领域,提出了一种视音频智能分析管控系统,以解决目前智能视频分析系统误报率高、漏报率高、准确性低、工作模式单一、不能实现按需传输、存储等问题。所述系统包括视音频特征数据库、视音频采集模块、视音频质量提升模块、视音频特征提取模块、视音频特征识别模块、视音频管控触发规则判断模块、视音频实时管控平台。系统有三种工作模式:前端分析、后端分析、分布式分析。本系统将语音信息与图像信息结合进行智能分析,有效地降低了智能视频分析系统的误报率和漏报率,并通过对视音频信息进行质量提升以及大型目标、行为特征数据库的建立,提高了系统的准确性,并可实现按需管控。
1.一种视音频智能分析管控系统,其特征在于,包括:
视音频特征数据库,包含多种目标和/或行为模型特征;
视音频采集模块,用于对采集的视音频信号进行处理,获取数字视频序列和数字音频序列;
视音频质量提升模块,用于对数字视频序列和数字音频序列进行质量提升;
视音频特征提取模块,用于分别对数字视频序列和数字音频序列进行特征提取、特征匹配、特征分类;
视音频特征识别模块,根据用户设定的参数,将视频对象、音频对象与多种目标和/或行为模型库进行比对;
视音频管控触发规则判断模块,根据用户事先设定好的规则和景深,结合视频特征和音频特征,判断规则是否被打破,如果打破了规则发出异常信息;
视音频实时管控平台,用于接收视音频分析结果,并根据分析结果发布管控命令。
2.根据权利要求1所述的视音频智能分析管控系统,其特征在于,所述的视音频特征数据库包括:
数据采集子模块,用于采集不同角度、不同环境的图片作为目标和/或行为样本库;
数据标定子模块,用于对采集得到的样本图片进行标定分类;
数据训练子模块,用于对采集的样本图片进行特征提取,并根据采集并标定好类别的样本图片及图片的特征进行分类训练;
特征比对子模块,当输入新的待测图片时,首先提取其特征,然后将这些特征输入训练好的分类器,即得出分类结果。
3.根据权利要求1所述的视音频智能分析管控系统,其特征在于:
所述的视音频采集模块,原始输入视频信号可以是来自摄像机、录像或其他设备任意分辨率的模拟视频信号或通过网络传输而 来的编码视频流;原始输入音频信号可以是模拟音频或数字音频流;
所述的视音频采集模块,分别对视音频信号进行数据处理,如果输入是模拟信号,首先要经A/D转换为数字信号;如果输入是编码流,经解码器进行解码,并转换成需要的格式。
4.根据权利要求1所述的视音频智能分析管控系统,其特征在于,所述的视音频质量提升模块包括:
噪声去除子模块,使用可调阿尔法均值滤波器对视频序列、音频序列进行噪声去除;
信号增强子模块,使用可调幂变换方法对视频序列、音频序列进行信号增强。
5.根据权利要求1所述的视音频智能分析管控系统,其特征在于,所述的视音频特征提取模块分为并行两支:
对于视频序列,所述视音频特征提取模块包括:
视频图像前景提取子模块,用于提取视频图像的前景;对于镜头固定的场景,采用帧差法得到前景,也可以采用基于高斯模型或码本法建立背景模型,将每一帧输入图像与背景画面做比较从而得到前景,同时对背景画面进行更新;对于镜头移动的场景,采用光流法直接得到前景;
视频目标匹配跟踪子模块,用于对视频序列进行目标匹配,使用轮廓特征和多维联合直方图特征相结合有效且准确的进行目标匹配;
视频目标分类子模块,用于对视频对象进行目标分类;
对于音频序列,所述视音频特征提取模块包括:
语音提取子模块,用于提取语音特征;
语音匹配子模块,用于对音频序列进行目标匹配,将音频序列提取出的特征与之前的语音对象进行匹配得到语音对象,并更新语音对象特征;
语音分类子模块,用于对音频对象进行分类。
6.根据权利要求1所述的视音频智能分析管控系统,其特征在于,所述的视音频管控触发规则判断模块用于进行管控触发规则判断,根据用户事先设定好的规则和景深、灵敏度、最大最小像素、 场景类型,判断视频状态或结合视频特征、音频特征判断特定事件是否发生。
7.根据权利要求1所述的视音频智能分析管控系统,其特征在于,所述的视音频实时管控平台接收视音频分析结果,根据分析结果发布各种管控命令;同时,管控平台负责输出视音频采集命令、为终端智能分析配置系统参数和规则参数、对视音频数据进行浏览、存储、检索工作。
8.根据权利要求1所述的视音频智能分析管控系统,其特征在于,所述的视音频智能分析管控系统,在前端进行视音频信号采集之后,即可在前端对视音频信息进行数据处理、特征提取、特征识别、管控触发规则判断处理,并将分析结果发送到后端,后端根据分析结果发布管控命令。
9.根据权利要求1所述的视音频智能分析管控系统,其特征在于,所述的视音频智能分析管控系统,对前端传送来的视音频信息在后端进行数据处理、特征提取、特征识别、管控触发规则判断处理,并根据分析结果发布管控命令。
10.根据权利要求1所述的视音频智能分析管控系统,其特征在于,所述的视音频智能分析管控系统,在前端进行视音频信号采集之后进行视音频数据处理和特征提取工作,并将特征流发送到后端,后端接收前端的数据流后进一步进行识别,完成分析工作,并根据分析结果发布管控命令。
11.根据权利要求1所述的视音频智能分析管控系统,其特征在于:
所述的视音频智能分析管控系统可对目标、行为、事件进行智能分析与管控;
所述的视音频智能分析管控系统其实现方式为:可通过软件实现或软硬件结合方式实现。
一种视音频智能分析管控系统\n技术领域\n[0001] 本发明涉及计算机视觉领域和人工智能领域,特别是智能视频监控领域,提出了一种基于视音频信息的智能分析管控系统。\n背景技术\n[0002] 传统的监控工作是被动式的,并不能分辨威胁是否存在,要靠监控者通过现场画面来界定突发事件的发生。这就要求监控者要不停地盯着屏幕,因为他们不知道关键事件什么时候会发生。而监控者很少保持注意力集中的状态来查看几十个屏幕,以至于当真实的警报发生时,却可能被监控人员所忽略。另外,当需要查看历史资料时监控人员要花费大量的时间在庞大的资料中找出所要的画面。\n[0003] 智能视频分析系统可使计算机从纷繁的视频图像中分辩、识别目标物体或判断特定事件是否发生。应用于安防视频监控系统中,能过滤掉图像中无用的或干扰信息,自动分析、抽取视频源中的关键有用信息,从而使传统的监控系统中的摄像机不但成为人的眼睛,也使智能视频分析成为人的大脑。智能视频分析为合理利用人力资源、提高管理水平和实现高效监控做出了巨大的贡献,\n[0004] 然而,由于技术上的不成熟,现有的智能视频监控系统并不尽如人意,高误报率和高漏报率往往不能使监控人员完全信任它们。\n[0005] 现有的智能视频分析系统仅依靠图像信息分析判断特定事件或行为是否发生,虽然视觉相比于听觉触觉等感官获得的信息量更大,但是如果孤立的从获得的视觉信息出发,对特定事件描述的准确性会大打折扣,因此具有很大的局限性。\n[0006] 其次,现有的智能视频分析系统在光线昏暗或过于强烈的信号以及较差的信号,往往不能进行准确的分析。另外,现有的智能视频分析系统工作模式单一,往往不能实现按需传输、按需存储。\n发明内容\n[0007] 本发明的目的在于解决上述技术问题,提供一种视音频智能分析管控系统,以解决在现有技术条件下以解决目前智能视频分析系统误报率高、漏报率高、准确性低、工作模式单一、不能实现按需传输、按需存储等问题。\n[0008] 为了解决上述技术问题,根据本发明提供的具体实施例,本发明公布了如下技术方案:\n[0009] 一种视音频智能分析管控系统,包括:\n[0010] 视音频特征数据库,包含多种目标和/或行为模型特征;\n[0011] 视音频采集模块,视音频采集模块,用于对采集的视音频信号进行数据处理,获取数字视频序列和数字音频序列;\n[0012] 视音频质量提升模块,用于对视频和语音数字序列进行质量提升;\n[0013] 视音频特征提取模块,用于分别对视频和语音数字序列进行特征提取、特征匹配、特征分类;\n[0014] 视音频特征识别模块,根据用户设定的参数,将视频对象、音频对象与多种目标和/或行为模型库进行比对;\n[0015] 视音频管控触发规则判断模块,根据用户事先设定好的规则和景深,结合视频特征和音频特征,判断规则是否被打破,如果打破了规则发出异常信息;\n[0016] 视音频实时管控平台,用于接收视音频分析结果,并根据分析结果发布管控命令。\n[0017] 进一步的,视音频特征数据库进一步包括:\n[0018] 数据采集子模块,用于采集不同角度、不同环境的图片作为目标和/或行为样本库;\n[0019] 数据标定子模块,用于对采集得到的样本图片进行标定分类;\n[0020] 数据训练子模块,用于对采集的样本图片进行特征提取,并根据采集并标定好类别的样本图片及图片的特征进行分类训练;\n[0021] 特征比对子模块,当输入新的待测图片时,首先提取其特征,然后将这些特征输入训练好的分类器,即得出分类结果。\n[0022] 进一步的,上述的视音频采集模块,原始输入视频信号可以是来自摄像机、录像或其他设备任意分辨率的模拟视频信号或通过网络传输而来的编码视频流;原始输入音频信号可以是模拟音频或数字音频流。\n[0023] 上述的视音频采集模块,分别对视音频信号进行数据处理,如果输入是模拟信号,首先要经A/D转换为数字信号;如果输入是编码流,经解码器进行解码,并转换成需要的格式。\n[0024] 进一步的,上述的视音频质量提升模块进一步包括:\n[0025] 噪声去除子模块,使用可调阿尔法均值滤波器对视频序列、音频序列进行噪声去除;\n[0026] 信号增强子模块,使用可调幂变换方法对视频序列、音频序列进行信号增强。\n[0027] 进一步的,上述的视音频特征提取模块分为并行两支:\n[0028] 对于视频序列,上述视音频特征提取模块进一步包括:\n[0029] 视频图像前景提取子模块,用于提取视频图像的前景;对于镜头固定的场景,采用帧差法得到前景,也可以采用基于高斯模型或码本法建立背景模型,将每一帧输入图像与背景画面做比较从而得到前景,同时对背景画面进行更新;对于镜头移动的场景,采用光流法直接得到前景;\n[0030] 视频目标匹配跟踪子模块,用于对视频序列进行目标匹配,使用轮廓特征和多维联合直方图特征相结合有效且准确的进行目标匹配;\n[0031] 视频目标分类子模块,用于对视频对象进行目标分类;\n[0032] 对于音频序列,上述视音频特征提取模块进一步包括:\n[0033] 语音提取子模块,用于提取语音特征;\n[0034] 语音匹配子模块,用于对音频序列进行目标匹配,将音频序列提取出的特征与之前的语音对象进行匹配得到语音对象,并更新语音对象特征;\n[0035] 语音分类子模块,用于对音频对象进行分类。\n[0036] 进一步的,上述的视音频管控触发规则判断模块用于进行管控触发规则判断,根据用户事先设定好的规则和景深、灵敏度、最大最小像素、场景类型,判断视频状态或结合视频特征、音频特征判断特定事件是否发生。\n[0037] 进一步的,上述的视音频实时管控平台接收视音频分析结果,根据分析结果发布各种管控命令;同时,管控平台负责输出视音频采集命令、为终端智能分析配置系统参数和规则参数、对视音频数据进行浏览、存储、检索等工作。\n[0038] 优选的,上述的视音频智能分析管控系统,在前端进行视音频信号采集之后,即可在前端对视音频信息进行数据处理、特征提取、特征识别、管控触发规则判断等处理,并将分析结果发送到后端,后端根据分析结果发布管控命令。\n[0039] 优选的,上述的视音频智能分析管控系统,对前端传送来的视音频信息在后端进行数据处理、特征提取、特征识别、管控触发规则判断等处理,并根据分析结果发布管控命令。\n[0040] 优选的,上述的视音频智能分析管控系统,在前端进行视音频信号采集之后进行视音频数据处理和特征提取工作,并将特征流发送到后端,后端接收前端的数据流后进一步进行识别,完成分析工作,并根据分析结果发布管控命令。\n[0041] 进一步的,上述的视音频智能分析管控系统可对目标、行为、事件进行智能分析与管控。\n[0042] 进一步的,上述的视音频智能分析管控系统其实现方式为:可通过软件实现或软硬件结合方式实现。\n[0043] 与现有技术相比,本发明具有如下优点:\n[0044] 首先,本发明将图像信息和语音信息结合在一起进行多媒体分析,旨在于将图像、语音与事件描述之间建立起对应关系。与传统的智能监控系统相比,语音信息的加入对智能分析起到了很好的辅助效果,排除误报,减少漏报,使系统的精确度有了很大的提高。\n[0045] 其次,建立了大型场景和目标行为模型特征库,提高了视频分析能力及准确性。大型场景中由于含有复杂背景,一般较难提取出符合规则所需要的目标或事件,达到精准的视频分析。本发明在算法底层内建有大场景或复杂背景的分析模式,并包括多种目标行为特征库,如加入各个角度的人体头肩模型,增强人员计数功能的准确度;如加入烟雾模型库,增加烟雾报警的准确度;或者通过不同方向物体的模型库,判断车辆/人逆行等。这样能更精准的过滤掉干扰信息及定位目标,减少误报及漏报,这样可以提高视频分析及报警效率,达到更准确的分析效果,增强产品在现实复杂环境中的可用性。\n[0046] 第三,本发明在对视音频信号进行分析处理前,首先对信号进行噪声去除、增强等前期处理以提高信号的价值,为后期分析处理做好准备,可有效地减少误报、漏报。\n[0047] 信号的获取(数字化)和传输过程会不可避免的产生噪声(在获取过程中主要受环境条件和传感元器件自身质量影响而产生噪声,在传输过程中主要由于所用的传输信道的干扰受到噪声污染),噪声去除的过程就是对信号复原的过程。\n[0048] 而信号增强的目的是为了显现被模糊了的细节,尤其对于较差、光线昏暗或过于强烈的信号,突出信号中感兴趣的特征。\n[0049] 信号噪声去除和信号增加的最终目的都是为了改善信号,这对整个视音频智能分析管控系统的有效运转做出了贡献。\n[0050] 第四,本系统有三种工作模式可供选择,后端分析、前端分析、分布式分析,解决了现有智能视频分析系统工作模式单一,不能实现按需传输、按需存储的问题。\n[0051] 其中,后端分析能非常方便地对传统监控系统进行升级改造,只需将本发明串联到视音频信号和显示屏之间即可。\n[0052] 为节省网络带宽资源,本发明包含前端分析以及分布式分析模式。\n[0053] 前端分析只需传输报警信号,大大节省了网络带宽资源。\n[0054] 分布式分析只需传输特征流(不到视音频流量的1/50),在节省带宽的同时把任务分散到前端和后端,使整个系统具有高效的分析能力,后端没有繁重的处理任务,不需大额硬件投资;\n[0055] 前端和分布式分析实现了“按需”监控:只有在出现报警的情况下,才可能需要把相关的视音频信号发送到后端进行记录或存储,而一般情况下只需要传输很少的数据。\n[0056] 根据应用环境,可用网络带宽资源的多少或者预备投资金额的多少,三种模式可选。\n[0057] 第五,本发明可以以纯软件或软硬件结合两种方式实现。在软硬件结合工作方式时,提供嵌入式视音频信息智能分析管控服务器,服务器接口丰富,能协助用户实现远程设置、远程报警、远程监控、音频对话、传感器输入/输出报警控制、联动球型摄像机对目标进行PTZ自动跟踪等操作。服务器安装简单,增强系统稳定性及灵活性,可以在前端对视频信息进行全部或部分分析处理,减少了视频信息上传的网络带宽压力,易于系统集成,采用一体化电路板设计,硬件的稳定性更高。总体而言,嵌入式视频分析架构目前发展速度更快,更是今后的趋势,因为嵌入式视频分析软件同样可以完成包括目标检测、跟踪、分类及规则定义等所有功能,并且选择嵌入式视频分析架构将现有的传统视频监控系统升级为智能视频监控系统,是一种成本低且易于改造的方案。随着DSP等芯片的性能不断提升,嵌入式将有更广阔的发展空间。\n[0058] 最后,本发明通过底层及算法优化,提高了视频分析速度,实现了动态实时海量视频数据的多功能高速智能视频分析,通过对编码代码的优化,提高编码效率或压缩率,减少带宽占用。这包括调用系统提供的丰富的内联函数,调整数据结构,将耗时函数抽取出来,用线性汇编改写等措施。在硬件方面,更进一步结合DSP本身的特点,对运行在嵌入式硬件DSP上的底层软件、编码及智能视频分析算法进行指令级深层次优化如循环拆解,充分利用丰富的媒体处理指令,节约DSP资源,最大限度的利用了DSP的并行计算优势。\n附图说明\n[0059] 图1系统逻辑结构图\n[0060] 图2视音频采集模块\n[0061] 图3视音频质量提升模块\n[0062] 图4视音频特征提取模块\n[0063] 图5视音频特征识别模块\n[0064] 图6系统前端分析工作模式图\n[0065] 图7系统后端分析工作模式图\n[0066] 图8系统分布式分析工作模式图\n具体实施方式\n[0067] 为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。\n[0068] 基于视音频信息的智能分析管控系统可以有两种实现方式:纯软件实现和软硬件结合实现。\n[0069] 1.软硬件结合实现智能分析管控系统时,软件部分为客户端管控平台,硬件部分为嵌入式视音频智能分析管控服务器。\n[0070] (1).嵌入式视音频智能分析服务器采用嵌入式硬件平台开发、DSP算法移植与优化、网络编解码等先进技术,内嵌智能视频分析算法:包括视音频的采集、质量提升、特征提取、特征识别、规则判断等算法。\n[0071] (2).平台管控软件安装在客户端,包含以下几个模块:为终端智能分析配置系统参数和规则参数、根据分析结果发布管控命令、输出视音频采集命令以及处理视音频数据。\n[0072] 2.纯软件实现智能分析管控系统时,嵌入式视音频智能分析管控服务器的工作全部交由平台管控软件来处理,即平台管控软件不仅要负责视音频的采集、质量提升、特征提取、特征识别、规则判断等算法,同时也要为终端智能分析配置系统参数和规则参数、根据分析结果发布管控命令、输出视音频采集命令以及处理视音频数据。\n[0073] 基于视音频信息的智能分析管控系统包括如下部分,如图1所示:\n[0074] 视音频特征数据库,包含多种目标和/或行为模型特征;\n[0075] 视音频采集模块,用于对采集的视音频信号进行处理,获取数字视频序列和数字音频序列;\n[0076] 视音频质量提升模块,用于对视频和语音数字序列进行质量提升;\n[0077] 视音频特征提取模块,用于分别对视频和语音数字序列进行特征提取、特征匹配、特征分类;\n[0078] 视音频特征识别模块,根据用户设定的参数,将视频对象、音频对象与多种目标和/或行为模型库进行比对;\n[0079] 视音频管控触发规则判断模块,根据用户事先设定好的规则和景深,结合视频特征和音频特征,判断规则是否被打破,如果打破了规则发出异常信息;\n[0080] 视音频实时管控平台,用于接收视音频分析结果,并根据分析结果发布管控命令。\n[0081] 本系统包括视音频特征数据库,包含了多种目标和/或行为模型特征。\n[0082] 其中,视音频特征数据库进一步包括:\n[0083] 数据采集子模块,用于采集不同角度、不同环境的图片作为目标和/或行为样本库;\n[0084] 数据标定子模块,用于对采集得到的样本图片进行标定分类;\n[0085] 数据训练子模块,用于对采集的样本图片进行特征提取,并根据采集并标定好类别的样本图片及图片的特征进行分类训练;\n[0086] 特征比对子模块,当输入新的待测图片时,首先提取其特征,然后将这些特征输入训练好的分类器,即得出分类结果。\n[0087] 数据采集子模块,用于尽可能多地采集不同角度、不同环境的图片作为目标和/或行为样本库,根据需要可以是不同目标,如人、车、烟雾、火焰等。进一步还可以分类,如人又可以分为正向/反向/侧向、坐/站/卧、静止/奔跑等类型。\n[0088] 数据标定子模块,用于人工地为采集得到的样本图片进行标定分类,如分成人、车、烟雾、火焰等类别;必要时标定物体的关键点,如人的眼/鼻/手/脚/肘等的位置。\n[0089] 数据训练子模块进一步包括:\n[0090] 特征提取子模块,用于对采集的样本图片进行特征提取;\n[0091] 分类训练子模块,用于根据采集并标定好类别的样本图片及图片的特征进行分类训练。\n[0092] 特征提取子模块,用于对采集的样本图片进行特征提取。SIFT特征是现在广泛使用的一种图像的局部特征。首先检测样本图像中一些显著区域,然后计算特征区域附近的梯度信息的统计直方图,用这个128维直方图的值来表示当前这个点的一个特征。对一副普通大小的图片,通常有几百到几千个SIFT特征来描述。另外,对每个特征来说,除了128维的特征值,还包括了特征点的位置,尺度,方向等参数。\n[0093] 另外,还有一些较简单的特征,如人或物体在不同角度、不同方向、不同姿态时的关键点(如人的眼/鼻/手/脚/肘等)位置,这些特征点位置需要人为标定。\n[0094] 训练分类子模块,在本实施例中,使用的是基于Adaboost的SVM训练分类系统。\n[0095] SVM(support vector machine)是一种常用的分类器,已知采集并标定好类别的样本图片以及这些图片的特征,SVM分类系统的目标是利用标定好的类别,训练出合理的分类器,当今后遇到类似的情况,可以直接分辨出是哪个类别的物体。对分类系统来说,输入是图片的特征,而输出则是这个图片的类别。\n[0096] Adaboost是一种迭代算法,核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。\n[0097] 特征比对子模块,用于当输入新的待测图片时,首先提取其特征,然后将这些特征输入训练好的分类器,即得出分类结果。\n[0098] 视音频采集模块用于获取数字视频序列和数字音频序列。其中原始输入视频信号可以是来自摄像机、录像或其他设备任意分辨率的模拟视频信号或通过网络传输而来的编码视频流;原始输入音频信号也可以是模拟音频或数字音频流。根据来源不同,视频采集过程分为A/D或解码、格式转换两个部分;同样的,模拟音频信号要经过A/D数字化处理,编码音频流需要解码处理,如图2所示。\n[0099] 在对视频信号进行采集处理时,前置A/D转换和解码器,如果输入是模拟信号,首先要经A/D转换为数字信号,如果输入是经mpeg4/h.264/h.263/AVS编码的码流,首先要经解码器解码;经解码或A/D转换后的数字视频信号,按不同的分析需求,转换为QCIF/CIF/D1大小的YUV4:2:2/RGB数字图像序列待用。\n[0100] 在对音频信号进行采集处理时,如果输入是模拟信号,首先要经A/D转换为数字信号,如果输入是经mpeg1/mpeg2/mpeg4ACC编码的码流,首先要经解码器解码[0101] 视音频质量提升模块,用于在特征提取前对视音频序列进行质量提升,如图3所示。\n[0102] 本发明在对视音频信号进行分析处理前,首先对信号进行噪声去除、增强等前期处理以提高信号的价值,为后期分析处理做好准备。\n[0103] 信号的获取(数字化)和传输过程会不可避免的产生噪声。如在获取过程中主要受环境条件和传感元器件自身质量影响而产生噪声,在传输过程中主要由于所用的传输信道的干扰受到噪声污染。噪声去除的过程就是对信号复原的过程。\n[0104] 而信号增强的目的是为了显现被模糊了的细节,尤其对于较差、光线昏暗或过于强烈的信号,突出信号中感兴趣的特征。\n[0105] 信号噪声去除和信号增加的最终目的都是为了改善信号,这对整个视音频智能分析管控系统的有效运转做出了贡献。\n[0106] 视音频质量提升模块,进一步包括:\n[0107] 噪声去除子模块,使用可调阿尔法均值滤波器对视频序列、音频序列进行噪声去除;\n[0108] 信号增强子模块,使用可调幂变换方法对视频序列、音频序列进行信号增强。\n[0109] a.可调阿尔法均值滤波器去噪:\n[0110] 其中0≤d≤(n-1)可调\n[0111] 对于视频信号,表示在点(x,y)处去除噪声后的像素点灰度值,N表示中心点在(x,y),大小为m×n的矩形子图像窗口,G(i)表示在子窗口内像素点的灰度值;上述公式的意义为:在N领域内去掉灰度值G(i)最高的d/2个像素和最低的d/2个像素。用Gr(i)来代表剩余的mn-d个像素,由这些剩余像素点的平均值作为(x,y)点的去噪后灰度值。\n[0112] 对于音频信号,表示在时间t处去除噪声后的振幅,N表示中心点在t,长度为n的子音频段,G(i)表示i时刻的振幅;上述公式的意义为:在N领域内去掉振幅G(i)最高的d/2个时刻点和最低的d/2个时刻点。用Gr(i)来代表剩余的n-d个时刻点,由这些剩余时刻点的平均值作为t时刻的去噪后振幅值。\n[0113] 当d=0时,阿尔法均值滤波器退变为算术均值滤波器,对抑制高斯和均匀随机分布的噪声有很好的效果;当d=mn-1时,阿尔法均值滤波器退变为中值滤波器,对抑制椒盐噪声有很好的效果。d取其他值时,修正后的阿尔法均值滤波器在包括多种噪声的情况下非常适用,例如高斯噪声和椒盐噪声混合的情况。\n[0114] b.可调幂变换增强信号\n[0115] 幂变换的基本形式为:\n[0116] S=cRγ,其中c和γ为正常数\n[0117] R为原始信号(二维图像或一维语音),S为增强后信号,调整γ参数会得到增强后信号。以图像为例,偏暗图像(如夜晚)在γ>1时会得到对比度的提升,偏白图像(如雾天)在γ<1时会得到对比度的提升。以语音为例,振幅较小的语音(场景离音频采集传感器较远)在γ>1时会得到对较好的增强,振幅较大的语音(场景离音频采集传感器较近)在γ>1时会得到对较好的增强。\n[0118] 视音频特征提取模块是本发明的核心模块之一。视音频特征提取模块分为并行两支,分别对视频和语音数字序列进行特征提取、特征匹配以及特征分类处理,如图4所示。\n[0119] 对于视频序列,视音频特征提取模块进一步包括:\n[0120] 视频图像前景提取子模块,用于提取视频图像的前景;对于镜头固定的场景,采用帧差法得到前景,也可以采用基于高斯模型或码本法建立背景模型,将每一帧输入图像与背景画面做比较从而得到前景,同时对背景画面进行更新;对于镜头移动的场景,采用光流法直接得到前景;\n[0121] 视频目标匹配跟踪子模块,用于对视频序列进行目标匹配,使用轮廓特征和多维联合直方图特征相结合有效且准确的进行目标匹配;\n[0122] 视频目标分类子模块,用于对视频对象进行目标分类;\n[0123] 对于音频序列,视音频特征提取模块进一步包括:\n[0124] 语音提取子模块,用于提取语音特征;\n[0125] 语音匹配子模块,用于对音频序列进行目标匹配,将音频序列提取出的特征与之前的语音对象进行匹配得到语音对象,并更新语音对象特征;\n[0126] 语音分类子模块,用于对音频对象进行分类。\n[0127] 视频图像前景提取子模块,用于提取视频图像的前景。根据镜头是否移动分为两种不同的方法。对于镜头固定的场景,可以采用帧差法得到前景,也可以采用基于高斯模型(单高斯/混合高斯)或码本(Codebook)等方法建立背景模型(背景画面),将每一帧输入图像与背景画面做比较从而得到前景,同时背景画面要做不断的更新。对于镜头移动的场景,采用光流法(optical flow)直接提取前景。\n[0128] a.帧差法提取图像前景\n[0129] \n[0130] 其中,In(x,y)为n时刻(x,y)点的灰度值,I(n-i)(x,y)为i帧前(x,y)点的灰度值,i通常取3-5,阈值Th=2.5σn,σn为两帧图像所有对应像素点灰度值相减后的均方差值。\n[0131] b.混合高斯模型建立背景图像\n[0132] 视频流输入的初始200帧不做检测工作,只用来建立背景模型。设背景图像为B(x,y),设图像中的每个像素点的灰度值在一段时间内的分布都是高斯分布,同时,考虑动态背景的影响(如飘动的红旗、摇曳的树枝等),为每个像素点建立K个高斯模型,高斯模型k k k\n有三个参数,分别为均值μ、方差σ、权重ω,1≤k≤K。\n[0133] (a).模型参数赋初值:设各像素点第一个模型的初始方差σ1(x,y)为一个较大\n1 1 1\n的值,权值ω(x,y)为一个较小的值,0<ω(x,y)<1,初始均值μ(x,y)为输入第一帧图像值I0(x,y):\n[0134] μ1(x,y)=I0(x,y)\n[0135] (b).模型建立与更新:用第n帧时(x,y)点的输入图像灰度值I(x,y)与现有模型相匹配,如果能匹配则以此点现有值更新此模型的均值和方差以及优先级;否则在此点建立一个新的模型,用输入图像的灰度值作为初值,并设一个较大的方差和较小的权值,直到k达到上限K,若k>K时,用新建立的模型代替优先级最小的模型。\n[0136] 模型匹配规则为:\n[0137] abs(μk(x,y)-It(x,y))≤2.5σk(x,y),1≤k≤K\n[0138] 模型更新公式为:\n[0139] \n[0140] \n[0141] \n[0142] 其中,α为更新率,0<α<1,1≤k≤K,当第1个满足匹配条件的模型是k时,k k\nM(x,y)=1,否则M(x,y)=0。\n[0143] (c).模型排序:当一个像素点的模型数目为k,且k>1时,对这k个模型按优先k k\n级大小进行排序,优先级计算公式为ω(x,y)/σ(x,y),在匹配时,从优先级最大的模型开始匹配,若第一个满足匹配条件的模型是k,则k即为此点此时刻的匹配模型,不需要再与优先级比k小的模型匹配。\n[0144] (d)前景提取:当输入的视频流大于200帧时,开始检测工作,将被匹配模型的均k\n值μ(x,y)作为背景图像点的灰度值,即B(x,y),得出背景图像为:\nk\n[0145] B(x,y)=μ(x,y)\n[0146] 需要说明的是,模型建立工作在初始200帧进行,而模型更新工作是一直贯穿在特征提取过程中,这样也就保证了在光线发生变化时得到实时的得到准确的背景图像。\n[0147] c.码本法:\n[0148] 针对监控系统获得的彩色视频序列,根据连续采样值的颜色相似度及其亮度范围,将背景像素值量化后用码本表示,利用减背景的思想对新输入的像素值与其对应位置的码本作比较判断,提取出前景运动目标像素.\n[0149] d.光流法:\n[0150] 光流法概念源自光流场,运动物体的影象在表面上的模式运动就是所谓的光流场,是一个二维速度场。设I(x,y,t)是图像点(x,y)在时刻t的像素值,如果u(x,y)和v(x,y)是该点光流的x和y分量,假设点在t+δt时刻运动到(x+δx,y+δy)时像素值保持不变,δx=uδt,δy=vδt,则有光流方程:\n[0151] I(x+uδt,y+uδt,t+δt)=I(x,y,t)\n[0152] 根据连续多帧图像序列,计算各像素点运动的大小和方向,即得到运动前景。\n[0153] 目标匹配跟踪子模块用于对视音频序列进行目标匹配,是将每一帧图像所检测出的前景,与后一帧检测出的前景根据轮廓/外围框相交、灰度直方图等指标进行匹配,如果连续几帧都检测出同一前景,则将其确定为一个目标并为之编号,继续与前景图像相匹配,此时可以进一步得到目标的运动属性,如运动轨迹、移动速度等;同样的,对于音频序列提取出的特征,与之前的语音对象进行匹配得到语音对象,更新语音对象的特征。\n[0154] 在本发明对运动目标的跟踪匹配过程中,主要运用了轮廓以及多维联合直方图特征。\n[0155] 即首先假设同一个物体的轮廓在相隔两帧图像中是相交的,这个假设是合理而又简单的。\n[0156] 然后,若两帧图像中有多个物体轮廓相交时,再运用多维联合直方图进行排除。多维联合直方图更加保证了匹配结果的可信度。\n[0157] 并且,轮廓特征和直方图特征都具有平移不变性,实践表明,这是一种非常有效且准确的特征匹配方式。\n[0158] 目标匹配:\n[0159] 1.设已有N个目标T1、T2、T3……Tn,当前帧检测出M个前景F1、F2、F3……Fm;\n[0160] 2.判断F1与N个目标轮廓是否相交:若F1只与一个目标Ti相交,且F1与Ti直方图匹配成功即认为F1就是Ti,用F1的属性更新Ti;若F1没有与任何一个Ti相交,即用F1建立新目标T(n+1);若F1与多个目标相交,则认为此时发生了目标合并,建立一个新的目标,标记其属性为合并,记录合并前各个目标的编号。\n[0161] 3.F2、F3……Fm重复步骤2,若多个前景与一个目标T相交,则认为此时发生了目标分离,建立一个新的目标,标记其属性为分离,记录分离前各个目标的编号。\n[0162] 目标分类子模块用于分别对视音频对象进行目标分类。\n[0163] 对于视频序列,根据目标属性,对目标进行分类,如按大小分为不同等级(8/25/50/100/500/1000/10000/10万像素点),按目标移动速度(n帧内移动范围小于m个像素,m和n可调)分为动态目标和静态目标等。对动态目标又可分为单个目标、合并目标(两个或多个目标合并而成的一个目标)或分离目标(从一个目标分裂出来的多个目标之一)。\n[0164] 经过质量提升之后的音频序列,加窗后提取语音特征,得到语音信号的过零率、短时振幅、短时能量这一组最基本的语音参数。设输入语音V(n),窗函数为W(n),窗长[0,N-1],令Vw(n)=W(n)×W(n),得到:\n[0165] 短时能量(Short Time Energy):\n[0166] 短时幅度(Short Time Amplitude):\n[0167] 过 零 率 (Zero-Crossing Rate):\nsgn[]为符号函数。\n[0168] 根据语音属性对语音对象也进行分类。如按同样的,根据语音属性,如语音的频率、振幅等属性对语音对象进行分类。\n[0169] 根据过零率,可分为低频、中频和高频(50Hz/100Hz/500Hz/1000Hz/10000Hz);\n[0170] 根据能量不同,可分为不同能量等级。\n[0171] 视音频特征识别模块可以在前端,也可以在后端。根据用户设定的参数,视音频对象与内嵌的多种目标和/或行为模型库(如人/车/烟雾/火焰/火花模型库、头肩识别、人群一致等模型库)进行比对,减少误报及漏报,提高视频分析及报警效率,达到更准确的分析效果,增强产品的可用性。如图5所示。\n[0172] 视音频管控触发规则判断模块,根据用户事先设定好的规则和景深、灵敏度、最大最小像素、场景类型,判断视频状态或结合视频特征、音频特征判断特定事件是否发生。\n[0173] 这些规则包括视频状态、禁区、越线、遗留、移走、徘徊、密度、人员计数、液体泄漏、烟雾、火焰、火花、脱岗、动点巡航等。可用于针对人或车的禁区检测、越线检测、人车分类检测等;针对人的人员计数、脱岗/睡岗检测、突然倒地检测、速度异常检测、打架检测,针对车辆的车道拥塞检测、车流量检测、车辆速度异常检测、非法停车检测、车辆徘徊/滞留检测等;以及其他异常检测,如视频状态检测、财产保护、异物检测、烟雾检测、火焰/火花检测、液体漏油检测、人群特征统计等。\n[0174] 对于需要分析视频实时状态的应用如人群特征统计,将状态信息密度、流量等发送给管控模块;对于需要判断特定事件是否发生的应用,在规则被打破时将报警信息发生给管控模块,也可以选择通过智能分析管控服务器的串口或I/O口进行本地报警,或者同时进行本地报警和远程报警。\n[0175] 以禁区为例,设定某一区域(如仓库、为汽车、重要物品或重点人员设定的警戒区)为禁区,一旦检测有目标出现在此区域内,则触发管控信号;\n[0176] 以越线为例,通过在画面上设置一条虚拟线,设定越线方向后,任何目标跨越此虚拟线均可被检测到并触发管控信号,本功能可用于逆行检测、周边入侵检测(翻越围墙,进入银行金库等重点场所等)、闯红灯、穿越铁路线、流量检测等多种用途。\n[0177] 以遗留移走为例,当画面内某物体被放置或移走特定时间后,触发管控信号,本功能可用于博物馆等场所。\n[0178] 以徘徊为例,当某一目标在防区内徘徊时间超过特定值时触发管控信号。\n[0179] 如当检测到画面中发生人群聚集并伴随较大能量语音的时候,认为可能发生群体事件并触发管控信号;如当检测到有较高频率语音或较大能量语音而没有视频异常时,自动将视频检测灵敏度调高;\n[0180] 当检测到画面中发生物体移走并伴随高频率语音信号时,认为可能发生盗窃事件;\n[0181] 视音频实时管控平台接收到视频分析结果,根据分析结果发布各种管控命令。同时,管控平台负责输出视音频采集命令、为终端智能分析配置系统参数和规则参数、对视音频数据进行浏览、存储、检索等工作。具体如:选择多种显示方式(多种画面分割显示/全屏显示)远程浏览多路实时监控视频图像、多路视频选择、设备查询、云镜控制(PTZ控制/预置位设置/巡航设定等)、实时显示报警信息、播放报警视频/停止报警视频、查看报警截图、按条件(设备/时间/事件/状态等)查询报警信息、录像(实时录像/报警联动录像/手动录像/周期录像/定时录像)、录像检索、播放录像、录像导出、电子地图、查询操作日志。\n[0182] 视音频实时管控平台的功能包括:\n[0183] 1.根据分析结果发布各种管控命令\n[0184] 如:云镜控制(PTZ控制/预置位设置/巡航设定等)、实时显示报警信息、设备查询、远程喊话、电子地图、查询操作日志等\n[0185] 2、输出视音频采集命令,并为终端智能分析配置系统参数和规则参数[0186] 如:多路视频选择、视频开始、视频关闭、为终端智能分析配置系统参数和规则参数等。\n[0187] 3、视音频数据处理\n[0188] 如:选择多种显示方式(多种画面分割显示/全屏显示)远程浏览多路实时监控视频图像、播放报警视频/停止报警视频、查看报警截图、按条件(设备/时间/事件/状态等)查询报警信息、录像(实时录像/报警联动录像/手动录像/周期录像/定时录像)、录像检索、播放录像、录像导出。\n[0189] 基于视音频信息的智能分析管控系统有三种工作模式:\n[0190] 1.前端分析:视音频智能分析管控系统在视音频信号采集设备之后对其做智能分析管控。在前端进行视音频信号采集之后,即可在前端对视音频信息进行数据处理、特征提取、特征识别、管控触发规则判断等处理,并将分析结果发送到后端,后端根据分析结果发布管控命令。如图6所示。\n[0191] 2.后端分析:视音频智能分析管控系统在视音频信息上显示屏之前对其做智能分析管控。对前端传送来的视音频信息在后端进行数据处理、特征提取、特征识别、管控触发规则判断等处理,并根据分析结果发布管控命令。如图7所示。\n[0192] 3.分布式分析:即嵌入式智能分析管控系统在视音频信号采集设备之后进行视音频采集和特征提取工作,并将特征流发送到后端,后端接收前端的数据流后进一步进行识别,完成分析工作,并根据分析结果发布管控命令。如图8所示。\n[0193] 其中,后端分析能非常方便地对传统监控系统进行升级改造,只需将本发明串联到视音频信号和显示屏之间即可。\n[0194] 为节省网络带宽资源,本发明包含前端分析以及分布式分析模式。\n[0195] 前端分析只需传输报警信号,大大节省了网络带宽资源。\n[0196] 分布式分析只需传输特征流(不到视音频流量的1/50),在节省带宽的同时把任务分散到前端和后端,使整个系统具有高效的分析能力,后端没有繁重的处理任务,不需大额硬件投资;\n[0197] 前端和分布式分析实现了“按需”监控:只有在出现报警的情况下,才可能需要把相关的视音频信号发送到后端进行记录或存储,而一般情况下只需要传输很少的数据。\n[0198] 根据应用环境,可用网络带宽资源的多少或者预备投资金额的多少,三种模式可选。\n[0199] 本发明公开了一种视音频智能分析管控系统,包括视音频特征数据库、视音频采集模块、视音频质量提升模块、视音频特征提取模块、视音频特征识别模块、视音频管控触发规则判断模块、视音频实时管控平台。系统有三种工作模式:前端分析、后端分析、分布式分析。本系统将语音信息与图像信息结合进行智能分析,有效地降低了智能视频分析系统的误报率、和漏报率,并通过对视音频信息进行质量提升以及大型目标、行为特征数据库的建立,有效地提高了系统的准确性;本发明提供了三种工作模式,前端分析模式、后端分析模式、分布式分析模式,解决了现有智能分析系统工作模式单一、不能实现按需传输、按需存储的问题,并具有很好的适应性。
法律信息
- 2019-04-09
未缴年费专利权终止
IPC(主分类): G06K 9/66
专利号: ZL 201010150978.8
申请日: 2010.04.20
授权公告日: 2011.12.14
- 2012-10-24
专利实施许可合同备案的生效
IPC(主分类): G06K 9/66
合同备案号: 2012110000149
专利号: ZL 201010150978.8
申请日: 2010.04.20
让与人: 王巍
受让人: 北京博思廷科技有限公司
发明名称: 一种视音频智能分析管控系统
申请公布日: 2010.08.11
授权公告日: 2011.12.14
许可种类: 独占许可
备案日期: 2012.08.29
- 2011-12-14
- 2010-09-29
实质审查的生效
IPC(主分类): G06K 9/66
专利申请号: 201010150978.8
申请日: 2010.04.20
- 2010-08-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |