著录项信息
专利名称 | 基于感兴趣区域的自适应可伸缩视频编解码结构设计方法 |
申请号 | CN200810232550.0 | 申请日期 | 2008-12-02 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2009-04-29 | 公开/公告号 | CN101420618 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04N7/26 | IPC分类号 | H;0;4;N;7;/;2;6查看分类表>
|
申请人 | 西安交通大学 | 申请人地址 | 陕西省西安市咸宁路28号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 西安交通大学 | 当前权利人 | 西安交通大学 |
发明人 | 兰旭光;薛建儒;郑南宁;惠苗;李策;陆硕 |
代理机构 | 西安通大专利代理有限责任公司 | 代理人 | 陈翠兰 |
摘要
本发明公开了一种基于感兴趣区域的自适应可伸缩视频编解码结构设计方法,感兴趣区域(ROI)的可伸缩视频编解码技术系统架构;通过自适应视频分割和跟踪技术,对视频内容进行分割,实现感兴趣区域ROI和背景的分离;通过ROI的区域运动补偿时域滤波技术,用以消除时域冗余;通过区域小波的ROI自适应位平面提升技术,使得感兴趣区域的信息可以先于背景区域编码和传输,从而在低码率下获得更好的视觉效果;通过区域自适应模板技术,使得区域时频域系数进行感兴趣区域和背景的区分;通过区域自适应码率控制技术,实现感兴趣区域和背景的自适应码率分配。
1.基于感兴趣区域的自适应可伸缩视频编解码结构设计方法,其特征在于:
源视频序列经过分割,将原始视频序列分割为感兴趣区域ROI(Region of Interests)和背景Background两个部分,之后,采用基于ROI的沿象素运动轨迹的运动补偿时域滤波MCTF,对感兴趣区域和背景分别进行运动估计,消除视频信号的帧间信息冗余,接下来对时域滤波得到的高低频帧进行空域二维小波变换,消除视频信号的帧内空域信息冗余,将感兴趣区域部分对应在各个频带中的三维小波系数进行量化和自适应位平面提升,最后经过嵌入式熵编码就可以产生能够支持内容可伸缩、时间分辨率可伸缩、空间分辨率可伸缩和质量可伸缩的码流,具体为:
通过自适应视频分割和跟踪技术,对源视频序列进行分割,实现感兴趣区域ROI和背景的分离;
对分割得到的感兴趣区域ROI采用区域运动补偿时域滤波技术,用以消除时域冗余;
通过区域自适应模板技术,使得消除冗余后的时域系数进行感兴趣区域和背景的区分;
通过区域小波的ROI自适应位平面提升技术,使得感兴趣区域ROI的信息可以先于背景区域编码和传输,从而在低码率下获得更好的视觉效果;
通过区域自适应码率控制技术,实现感兴趣区域和背景的自适应码率分配。
2.根据权利要求1所述的基于感兴趣区域的自适应可伸缩视频编解码结构设计方法,其特征在于,所述的自适应视频分割和跟踪技术是指,对一组帧GOP的不同运动区域的视频内容进行分割和跟踪,使得视频的内容分为感兴趣区域和背景区域。
3.根据权利要求1所述基于感兴趣区域的自适应可伸缩视频编解码结构设计方法,其特征在于,所述的对分割得到的感兴趣区域ROI采用区域运动补偿时域滤波技术是指,对一个组帧GOP的前感兴趣区域ROI与背景区域分别进行区域运动估计,获得区域像素的运动轨迹,然后分别对感兴趣区域和背景区域的像素沿运动轨迹进行时域小波滤波。
4.根据权利要求1所述的基于感兴趣区域的自适应可伸缩视频编解码结构设计方法,其特征在于,所述的区域小波的ROI自适应位平面提升技术是指,利用时频分析三维小波技术,以内容自适应提升为平面的方式对感兴趣区域的视频内容进行优先编码,首先确定在三维小波变换后视频源中ROI区域在各个频域子带中对应系数,随后采用位平面提升的办法,对这些系数进行内容自适应比例的尺度缩放,使得感兴趣区域部分的系数可以优先得到编码和解码。
5.根据权利要求1所述的基于感兴趣区域的自适应可伸缩视频编解码结构设计方法,其特征在于,所述的区域自适应模板技术是指,区域位平面提升的范围可以将不同的分辨率层级下的系数根据实际内容可伸缩需求划入模板,逐渐加入更多的低频信息,从而实现不同尺度下提升可伸缩。
6.根据权利要求1所述的基于感兴趣区域的自适应可伸缩视频编解码结构设计方法,其特征在于,所述的区域自适应码率控制技术是指:在不同码率情况下根据实际内容可伸缩需求对ROI分配以不同的质量码率,该码率控制技术对当前码率、视频帧尺寸、提升高度因素进行综合考虑,做出更优的码率分配与控制,在极低码率下对ROI提升更高的位数,分配以更多的码率。
基于感兴趣区域的自适应可伸缩视频编解码结构设计方法\n技术领域\n[0001] 本发明属于视频编解码领域,特别涉及基于感兴趣区域的自适应可伸缩视频编解码结构设计方法。\n背景技术\n[0002] 随着互联网和无线通信的不断普及与发展,带宽的波动性、用户终端的多样性和网络的异构性对视频流媒体服务提出了更高的要求。传统的视频编码标准由于不能灵活地适应传输条件以及客户需求的多样性,因而面临着新的巨大挑战。以往的视频编解码技术无法动态对码流进行调整,不能最大限度的利用带宽资源,在网络传输条件较差时,用户在终端可能无法接收到视频,在传输条件较好时,又可能收不到足够清晰的视频节目。而旨在提供自适应传输的可伸缩编码技术(Scalable Video Coding SVC),实现视频多分辨率可分级编码传输,能满足网络流媒体的特性。但是,目前还没有较好的实现基于内容的可伸缩视频编码技术,实现用户关注内容的可伸缩,从而使得用户获得更好的观看质量,因而这一技术已成为研究的热点。\n发明内容\n[0003] 本发明的目的在于克服上述现有技术不足,提供一种基于感兴趣区域的自适应可伸缩视频编解码结构设计方法,视频中用户感兴趣的区域可以获得更高的码率和更优的观看质量,终端用户仅解码一部分压缩的比特流就可以恢复出有意义的图像或视频信息,这样就能够满足终端的多样性、网络的异构性、带宽的波动性等视频通信和网络传输需求。\n[0004] 本发明实现感兴趣区域内容可伸缩、空间可伸缩、时间可伸缩、质量可伸缩及其任意联合可伸缩的高效数字视频编解码。本发明首先通过视频内容的分割和跟踪技术,区分视频的感兴趣区域和背景。通过在时空频域内计算重构感兴趣区域所需要的时空域小波系数的位置,对感兴趣区域的内容进行不同模式和不同高度的自适应位平面提升,从而让该区域的视频内容比背景区域更早的得以传输。这样在固定码率下,感兴趣区域将会获得更优的主观和客观视觉效果。这样更加符合人类视觉系统的注意机制,从而提高解码端用户的满意度。\n[0005] 为了实现上述任务,本发明采用的技术解决方案是:\n[0006] 1)建立了感兴趣区域ROI的可伸缩视频编解码技术系统架构;\n[0007] 2)通过自适应视频分割和跟踪技术,对视频内容进行分割,实现感兴趣区域ROI和背景的分离;\n[0008] 3)对分割得到的感兴趣区域ROI采用区域运动补偿时域滤波技术,用以消除时域冗余;\n[0009] 4)通过区域自适应模板技术,使得消除冗余后的时域系数进行感兴趣区域和背景的区分;\n[0010] 5)通过区域小波的ROI自适应位平面提升技术,使得感兴趣区域ROI的信息可以先于背景区域编码和传输,从而在低码率下获得更好的视觉效果;\n[0011] 6)通过区域自适应码率控制技术,实现感兴趣区域和背景的自适应码率分配。\n[0012] 所述的建立感兴趣区域ROI的可伸缩视频编解码技术系统架构是指,源视频序列经过分割,形成用户感兴趣的感兴趣区域和相对不关注的背景两个部分;感兴趣区域和背景需要分别进行运动估计,并进行基于ROI的运动补偿时域滤波,消除视频信号的帧间时域信息冗余,接下来对视频序列的高低频帧进行区域空域小波变换,消除视频信号的帧内空域信息冗余,而后,经过量化,自适应位平面提升,编码、区域码率控制和打包,通过一次编码将视频组织成不同层级的码流。\n[0013] 所述的自适应视频分割和跟踪技术是指,对一组帧GOP的不同运动区域的视频内容进行分割和跟踪,使得视频的内容分为感兴趣区域和背景区域。\n[0014] 所述的基于ROI的区域运动补偿时域滤波技术是指,对一个组帧GOP的前感兴趣区域ROI与背景区域分别进行区域运动估计,获得区域像素的运动轨迹,然后分别对感兴趣区域和背景区域的像素沿运动轨迹进行时域小波滤波。\n[0015] 所述的区域小波的ROI自适应位平面提升技术是指,利用时频分析三维小波技术,以内容自适应提升为平面的方式对感兴趣区域的视频内容进行优先编码,首先确定在三维小波变换后视频源中ROI区域在各个频域子带中对应系数,随后采用位平面提升的办法,对这些系数进行内容自适应比例的尺度缩放,使得感兴趣区域部分的系数可以优先得到编码和解码。\n[0016] 所述的区域自适应模板技术是指,区域位平面提升的范围可以将不同的分辨率层级下的系数根据实际内容可伸缩需求划入模板,逐渐加入更多的低频信息,从而实现不同尺度下提升可伸缩。\n[0017] 所述的区域自适应码率控制技术是指:在不同码率情况下根据实际内容可伸缩需求对ROI分配以不同的质量码率,该码率控制技术对当前码率、视频帧尺寸、提升高度因素进行综合考虑,做出更优的码率分配与控制,在极低码率下对ROI提升更高的位数,分配以更多的码率。\n[0018] 本发明实现了基于感兴趣区域的可伸缩编解码技术,并可以将其应用于网络传输中去。用户可以根据自身需求来获取相应质量不同内容的视频流进行播放,在保证感兴趣区域观看质量的基础上对视频进行传输。\n[0019] 本发明是一种可以将原始视频编码成基于内容的多维嵌入式码流的高效数字视频编码方法。提供了支持任意感兴趣区域的可伸缩数字视频编解码结构设计方法,对用户关注的内容区域分配以更高的码率,从而获得更好的观看质量,更加适应新型视频应用的发展。\n附图说明\n[0020] 图1是本发明系统结构示意图。\n[0021] 图2是基于ROI的运动补偿时域滤波技术(ROI-based MCTF)示意图。\n[0022] 图2(a)表示传统运动估计。\n[0023] 图2(b)表示带ROI的运动估计。\n[0024] 图3是基于感兴趣区域的可伸缩位平面提升高度示意图。\n[0025] 图3(a)表示无ROI编码。\n[0026] 图3(b)表示一般ROI编码。\n[0027] 图3(c)表示Maxshift编码。\n[0028] 图3(d)表示部分提升编码。\n[0029] 图4是基于感兴趣区域的可伸缩位平面提升范围示意图。\n[0030] 图4(a)表示原始模板。\n[0031] 图4(b)表示变换后的模板。\n[0032] 图4(c)表示包含LL子带的模板。\n[0033] 图4(d)表示包含相邻3个频带的模板。\n[0034] 图5是基于感兴趣区域的码率控制示意图。\n[0035] 下面结合附图对本发明的内容作进一步详细说明。\n具体实施方式\n[0036] 本发明在编解码系统中,采用运动补偿时域滤波(MCTF),滤波器选取5-3小波或Haar小波。空域采用了5-3小波,9-7小波或Haar小波。编码时采用嵌入式码块优化截断编码技术、位平面编码和上下文自适应熵编码技术,以及拉各朗日码率控制技术。\n[0037] 参照图1所示,首先将原始视频序列分割为感兴趣区域(Region ofInterests)和背景(Background)两个部分。之后,采用基于ROI的沿象素运动轨迹的时域运动补偿滤波(MCTF),消除视频序列的时域相关性,然后对时域滤波得到的时域高低频帧进行空域二维小波变换,并将感兴趣区域部分对应在各个频带中的三维小波系数进行量化和自适应位平面提升。随后,经过嵌入式熵编码就可以产生能够支持内容可伸缩、时间分辨率可伸缩、空间分辨率可伸缩和质量可伸缩的码流。通过“三维码率控制”对已生成的嵌入式码流在时间、空间和质量上根据用户视频接收终端的多样性和网络带宽进行最优抽取,抽取后的重构视频可以在当前码率的限制下保证感兴趣区域最先被恢复出来。如图中所示,解码过程是编码过程的逆过程,处理方式与编码相对应。\n[0038] 参照图 2(a)、(b)所示,该 技术 依然沿 用区域 分级 可变块 块匹 配HVSBM(Hierarchical Variable Size Block Matching)方法来得到视频帧的运动轨迹。但是在全分辨率下进行,不进行金字塔的分解。对一个组帧的感兴趣区域与背景区域分别进行沿运动轨迹的时域滤波以及对应的逆滤波。图中已经标识出感兴趣区域ROI的高度与宽度信息。背景范围是个“回”字型的区域。其中的vx与vy表示可以对背景进行滤波的范围。\n[0039] 参照图3所示,本实施例的提升技术分为三种,一般ROI编码模式、部分位平面提升模式和最大位平面提升模式。对于传统的编码来说(图3a),不进行ROI与背景的区分,所有区域有同样的编码顺序,得到同质量的传播。而在一般ROI编码模式下(图3b),用户可以自行选择ROI区域系数提升的高度,从而得到更加清晰的感兴趣区域的视频图像质量。ROI区域的质量随着提升的高度增加而变得更好。在另一种最大位平面提升模式中(图3c),所有码率都被分配给了感兴趣区域,ROI在此时得到了最清晰的画面,但是用户无法再看到背景中的内容。这是一种牺牲背景换取感兴趣区域质量的模式。由于在一定的传输后,感兴趣区域已经有了较高的质量,不需要将其所有数据完全进行传输,所以最后一种部分位平面提升模式中(图3d),只传输ROI区域位平面的较高几级,在保证感兴趣区域的观看质量后开始传输背景,从而获得很好的折衷。\n[0040] 参照图4所示,利用小波多分辨率分析的特性,对模板做一定改动,获得更好的解码效果。变换前的模板如图4(a)所示,可以只传输感兴趣区域(图4b),也可以将整个LL子带划入模板所在的范围内(图4c),甚至可以将更高一级的三个相邻子带划入模板所在的范围内(图4d)。对于LL低频子带来说,在经过3级变换后,该区域在很小的范围内聚集了大量丰富的图像宏观信息。将LL低频子带及其相邻高频子带全部区域归入ROI模板,从而增强背景的解码效果。\n[0041] 参照图5所示,根据视频感兴趣区域和视频内容,并结合自适应区域模板技术并进行感兴趣区域区域码率和背景码率自适应的分配。图5中,横坐标表示ROI的码率,纵坐标表示该区域的失真度。分配给ROI的码率越高,其失真度越小。这样,在不同的码率上进行截断,就可以获得不同的码流质量层。然后,根据实际传输视频可伸缩性的需求而自适应的进行分配码率,进而满足异构网络环境下异构用户的需求。\n[0042] 本发明提供的具有内容、时间、空间、质量及复杂度可伸缩及联合可伸缩的视频编码结构设计方法,可以满足视频流媒体异构传输网络服务和用户多样性的需求。具体包括:\n[0043] 1)感兴趣区域(ROI)的可伸缩视频编解码技术系统架构;\n[0044] 2)通过“自适应视频分割和跟踪技术”,对视频内容进行分割,实现感兴趣区域(ROI,Region of Interest)和背景的分离;\n[0045] 3)通过“ROI的区域运动补偿时域滤波技术”,用以消除时域冗余;\n[0046] 4)通过“区域小波的ROI自适应位平面提升技术”,使得感兴趣区域的信息可以先于背景区域编码和传输,从而在低码率下获得更好的视觉效果;\n[0047] 5)通过“区域自适应模板技术”,使得区域时频域系数进行感兴趣区域和背景的区分;\n[0048] 6)通过“区域自适应码率控制技术”,实现感兴趣区域和背景的自适应码率分配。\n[0049] 所述“基于感兴趣区域(ROI)的可伸缩视频编解码技术系统架构”是指,源视频序列经过分割,形成感兴趣区域和相对不关注的背景两个部分。感兴趣区域和背景需要分别进行运动估计,并进行基于ROI的运动补偿时域滤波,消除视频信号的帧间时域信息冗余,包括感兴趣区域和背景的信息冗余。接下来对视频序列的高低频帧进行区域空域小波变换,消除视频信号的帧内空域信息冗余。而后,经过量化、自适应位平面提升、编码、区域码率控制和打包等步骤,通过一次编码将视频组织成不同层级的码流,并使得编码的比特流具有完全可分级性的性质。在这样多样化需求的环境下,可以根据用户的需求和网络的实时条件,自适应的选择需要传输的码流,即实现一次编码多层解码。这种灵活的码流组织模式既能充分利用当前的网络带宽的条件,又可以满足终端的多样性、网络的异构性等视频通信和网络传输需求。\n[0050] 所述“自适应视频分割和跟踪技术”是指,对一组帧(Group of Picture,GOP)的不同运动区域的视频内容进行分割和跟踪,使得视频的内容分为感兴趣区域和背景区域。\n[0051] 所述“基于ROI的区域运动补偿时域滤波技术”是指,对一个组帧(GOP)的感兴趣区域(ROI)与背景区域分别进行区域运动估计,获得区域像素的运动轨迹;然后分别对感兴趣区域和背景区域的像素沿运动轨迹进行时域小波滤波。在对背景进行区域运动估计时,需要对像素点进行判断,如果该像素点的坐标位置叠加运动补偿后的数值进入了感兴趣区域(参考帧的ROI),那么需要将此处的运动矢量释放,从而重新设置这一点的运动矢量并进行随后的滤波。感兴趣区域与背景的范围为规则区域。但与感兴趣区域的矩形区域不同,背景范围是“回”字型的区域。另外,为了进行子像素精度级的时域滤波,需要对像素点进行插值。插值时,范围不能统一进行判断,需要分区域。\n[0052] 所述“区域小波的ROI自适应位平面提升技术”是指,利用时频分析三维小波技术,以内容自适应提升为平面的方式对感兴趣区域的视频内容进行优先编码,使得其比背景区域更早更清晰的传输。在固定码率下,感兴趣区域将有着更优的主观和客观视觉效果。\n具体步骤包括,首先需要确定在三维小波变换后视频源中ROI区域在各个频域子带中对应系数。随后采用位平面提升的办法,对这些系数进行内容自适应比例的尺度缩放,使得感兴趣区域部分的系数可以优先得到编码和解码。此技术对规则区域和非规则区域的ROI编码都适用。感兴趣区域的码流在总码流中的位置居前。在码流发生截断时,可以保证其更优的观看质量。具体的位平面提升算法按实际可伸缩需求分为三种:\n[0053] 具体分为①一般ROI编码模式、②部分位平面提升模式和③最大位平面提升模式\n3种。在①一般ROI编码模式下,用户可以自行选择ROI区域全部系数提升的高度,从而得到更加清晰的感兴趣区域的视频图像质量。ROI区域的质量随着提升的高度增加而变得更好。由于在一定的传输后,感兴趣区域已经有了较高的质量,不需要将其所有数据完全进行传输,所以在②部分位平面提升模式中,只传输ROI区域位平面的较高几级,截断其在底部的信息,即在保证感兴趣区域的观看质量基础上,立即开始传输背景的内容。而在③最大位平面提升模式中,所有ROI对应系数的位平面完全被提升到了背景区域之上,也就是说感兴趣区域的系数得到优先编码,ROI在此时得到了最清晰的画面。\n[0054] 所述“区域自适应模板技术”是指,区域位平面提升的范围用一个布尔型模板进行标记。用来重构区域ROI的小波系数所处的位置,将被标记为1,而那些不属于区域ROI的系数将被标记为0。在经过内容自适应模板的变换之后,会确定出重构ROI的模板。可以利用三维小波多分辨率分析的特性,对模板做一定改动,获得更好的解码效果。具体是指,可以将不同的分辨率层级下的系数根据实际内容可伸缩需求划入模板,逐渐加入更多的低频信息,从而实现不同尺度下提升可伸缩。比如可以将LL低频子带的全部区域归入ROI模板。\n因为LL低频子带在经过3级变换后,该区域在很小的范围内聚集了丰富而大量的图像总体信息,可以通过利用这一部分较少的系数值来很好的增强背景的解码效果。同样,为了进一步提高背景解码质量,也可以将LL子带相邻的三个高频子带的全部系数都用来重构图像,从而进一步改善背景的效果。\n[0055] 所述“区域自适应码率控制技术”是指:在不同码率情况下根据实际内容可伸缩需求对ROI分配以不同的质量码率。例如在极低码率下ROI的质量将无法令用户满意,则需要进行动态调整,对ROI提升更高的位数,分配以更多的码率,使其满足用户的需求。该码率控制技术对当前码率,视频帧尺寸,提升高度等因素进行综合考虑,做出更优的码率分配与控制。
法律信息
- 2015-01-14
未缴年费专利权终止
IPC(主分类): H04N 7/26
专利号: ZL 200810232550.0
申请日: 2008.12.02
授权公告日: 2011.01.05
- 2011-01-05
- 2009-06-24
- 2009-04-29
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |