H.264标准及其在视频会议系统应用_视像通讯

H.264标准及其在视频会议系统应用

2005/03/25

1、引言

　　视频会议系统是一种可以在两点或多点间实现实时传送视频、音频和应用数据等多种信息、具有会议功能的多媒体通信系统。近年来，随着我国通信网络基础设施的快速建设和经济的飞速发展，会议电视业务由于可以为处于两点或多点的与会者提供视音频和数据等多种信息，节省大量费用，提高工作效率而发展迅速，并有望成为下一代网络(NGN)的主要业务。H.264是由ITU-T和ISO两个组织的专家为实现视频的更高压缩比，更好的图像质量和良好的网络适应性而提出的新的视频编解码标准。事实证明，H.264编码具有比其他的H系列视频压缩标准节省码流，比MPEG-4算法简单的特点。H.264的良好网络适应性和内在的抗丢包能力、抗误码机制，使它不仅适于IP传输方式，也适合丢包严重、时延和抖动复杂的无线信道。H.264有望成为多媒体通信中首选的视频编解码标准。

2、视频会议系统对视频编解码的要求

　　视频会议系统从产生至今，ITU-T制定了多种适合于各类通信网络的标准，目前通信网上传输多媒体信息的系统主要有H.320(基于ISDN)，H.324(包括H.324I，H.324P和H.324M)，H.31O(基于ATM)和H.323(基于LAN)四类系统。随着IP问题(安全和QoS问题)的逐步解决，以IP作为承载网的优势将更加明显，下一代网络也将采用IP技术作为承载网技术，因此本文以适用于在IP网上提供多媒体业务的H.323系统为主进行阐述。

　　视频会议系统对视频编解码标准的具体要求是：

　　(1)由于目前IP网络接入方式有LAN接入，Ethernet，xDSL等多种方式，一些接入方式如xDSL可提供的带宽有限，除去音频、数据占用的带宽，传输视频的可用带宽更少，要求视频编解码高效，压缩率高。

　　(2)网络适应性好，便于视频流在网络中传输，

　　(3)抗丢包性能和抗误码性能好，适应各种网络环境，包括丢包和误码严重的无线网络。

3、H.264编码的技术优势

　　由于H.264在制定时就充分考虑了多媒体通信对视频编解码的各种要求，并借鉴了H系列和MPEG系列视频标准的研究成果，因而具有明显的优势。结合视频会议系统对视频编解码技术的要求，H.264的优势表现在以下三个方面：

　　3.1　压缩率和图像质量方面

　　H.264通过对传统的帧内预测、帧间预测、变换编码和熵编码等算法的改进来进一步提高编码效率和图像质量。

　　(1)块的大小可变。在运动估计时，可以灵活地选择块的大小。在宏块(MB)划分上，H.264采用了16×6，16×8，8×16，8×8四种模式；当划分为8×8模式时，又可进一步采用8×4，4×8，4×4三种子宏块划分模式(见图1)进一步划分，这样做既可以使运动物体的划分更加精确，减小运动物体边缘的衔接误差，又可以减小变换过程中的计算量。当对较大的平滑区域采用Intra_16×16的帧间预测方式时，为减小小尺寸变换带来的块间灰度差异，H.264采用了对亮度数据的16个4×4块的DC系数进行第二次4×4变换，对色度数据的4个4×4块的DC系数进行22变换的方式。

图1　宏块划分和子宏块划分

　　(2)1/4像素精度的运动估值。在H.264中通过6阶FIR滤波器的内插获得1/2像素位置的预测值。当1/2像素值获得后，通过取整数像素位置和1/2像素位置像素值均值的方式获得1/4像素位置的值。采用高精度运动估计会进一步减小帧间预测误差，减少了经变换和量化后的非O比特数，提高了编码效率。

　　(3)多参考帧运动估值。以往的编解码技术在对P帧(场)图像进行帧间预测时，只允许以前一个I图像或P图像为参考帧，对B图像进行预测时只允许以前后两个I图像或P图像为参考图像。H.264则打破了这些限制，允许在Reference Buffer中的多个图像中选取一个(P预测方式)或两个(B预测方式)图像作为参考图像，参考图像甚至可以是采用双向预测编码方式的图像。

　　(4)参考图像的选取与其编码方式无关。允许选取与当前图像更加匹配的图像为参考图像进行预测，减小了预测误差，提高编码效率。

　　(5)加权预测。允许编码器以一定的系数对运动补偿预测值进行加权，从而在一定的场景下可以提高图像质量。

　　(6)Intra_4×4模式的帧间预测。在这种模式下，每个4×4块都可以利用其上方和左侧的17个最接近的像素进行预测。

　　(7)循环内的消除块效应滤波器。为消除在预测和变换过程中引入的块效应，H.264也采用了消除块效应滤波器，但与以往标准不同的是，H.264的消除块效应滤波器位于运动估计循环内部，可以利用消除块效应以后的图像去预测其它图像的运动，进一步提高预测精度。滤波强度取决于宏块的预测方式、量化参数、运动矢量等。量化步长减小时，滤波器的作用也会相应降低。

　　(8)更好的熵编码算法CAVLC和CABAC。

　　3.2　网络适应性方面

　　为了方便地在各种系统中灵活有效的应用H.264，H.264编解码系统(见图2)定义了视频编码层VCL和网络提取层NAL。其中，VCL用于视频编解码，包括运动补偿，变换编码和熵编码等单元，NAL用于采用统一的格式对VCL视频数据的进行封装打包。

图2　H.264编码器结构

　　(1)NAL Units。视频数据封装在整数字节的NALU中，它的第一个字节标志该单元中数据的类型。H.264定义了两种封装格式。基于包交换的网络系统可以使用RTP封装格式封装NALU，并且可以通过在NALU后面增加一个16位的信息域的方式将多个NALU放在一个RTP中传输。另一些系统，如H.320系统或MPEG-2系统可能会要求将NALU作为顺序比特流传送，为方便在这些系统中使用H.264，H.264定义了一种比特流格式的传输机制，使用头编码前缀(start code prefix)将NALU封装起来，并用一个有限状态机来保证头编码前缀不会出现在它封装的NALU中，防止了错误定界的发生。

　　(2)参数集。在以往视频编解码标准中，GOB\GOP\图像头信息是至关重要的，包含这些信息的包的丢失将直接导致与这些信息相关的数据不可用，因此这些标准大都采用了冗余编码技术来保护这些头信息。为解决这些问题，H.264将这些很少变化并且对大量VCL NALU起作用的信息放在参数集中传送。参数集分为两种，即序列参数集sequence parameter set和图像参数集picture parameter set，前者对一系列连续编码图像起作用，后者对连续编码图像序列中的单独图像起作用。VCL NALU通过标识位来指定它所参考的参数集。为适应多种网络环境，参数集可以带内传送，也可以采用带外方式传送。

　　3.3　抗丢包和抗误码方面

　　在H.264中，参数集，片的使用，FMO，冗余片等关键技术的使用可以大大提高系统的抗丢包和抗误码性能。

　　(1)参数集的使用。参数集及其灵活传送方式的使用本身会大大降低因关键的头信息丢失而造成错误发生的可能。为保证参数集可靠的到达解码器端，可以采用重发的方式多次发送同一参数集，传送多个参数集或将参数集固化在解码器中。

　　(2)片(slice)的使用。在不使用FMO时，片是一系列宏块按照光栅扫描顺序的组合。图像可以划分成一个或几个片。片是独立的，也就是说，在编码器和解码器使用的参考图像一致的情况下，只要给定序列参数集和图像参数集，片的语法元素和该片图像采样值就可以从码流中解析出来，而不需要其他片的数据(片边缘消除块效应滤波过程可能会需要其他相邻片的数据)。将图像划分为多个片，当某一片不能正常解码时的空间视觉影响就会大大降低，而且片的头部还提供了重同步点。

　　(3)FMO技术。通过FMO可以进一步提高片的差错恢复能力。通过片组(slice group)的使用，FMO改变了图像划分为片和宏块的方式。宏块到片组的映射定义了宏块属于哪一个片组。利用FMO技术，H.264定义了7种宏块扫描模式。

　　如图3所示，阴影部分宏块属于片组0，白色部分属于片组1。假设片组O在传输过程中丢失，由于丢失宏块的相邻宏块都属于片组1，这样差错恢复工具就会有更多的可利用信息来恢复丢失片的数据。

图3　一种宏块扫描模式

　　(4)帧内预测。H.264借鉴了以往视频编解码标准在帧内预测上的经验，值得注意的是，在H.264中，IDR图像可以使短期参考图像缓存无效，之后的图像解码时不再参考IDR图像之前的图像，因而IDR图像具有强壮的重同步性能。在一些丢包和误码严重的信道中，可以采取不定期传送IDR图像的方式进一步提高H.264的抗误码和抗丢包性能。

　　(5)冗余片。为提高H.264的解码器在发生数据丢失时的健壮性，可以采用传送冗余片的方式。这些冗余片可以是基本图像的一部分。冗余片和基本片可以采用不同的编码参数，当基本片丢失时，可以通过冗余片重构原图像。

　　(6)数据划分。由于运动矢量和宏块类型等信息相对于其他信息具有更高的重要性，因而在H.264中引入了数据划分的概念，将片中语义彼此相关的语法元素放在同一个划分中。在H.264中有三种不同的数据划分。第一类划分中包含头信息等重要信息，如宏块类型、量化参数和运动矢量等，称为A类划分。第二类划分包含帧内CPB和帧内系数，称为B类划分。第三类划分包含帧间CBPs和帧间系数，称为C类划分。若解码器发现帧内信息或帧间信息丢失，由于宏块类型和运动矢量等重要信息的存在，仍然可以使差错恢复工具具有良好的性能。

　　(7)多参考帧运动估值。多参考帧运动估值的一个作用是可以提高编码器的编码效率，另一个作用是提高差错恢复能力。在有反馈的系统(如采用RTP/RTCP作为应用层传输协议的通信系统)中，当编码器得知有图像丢失时，可以选择解码器已经正确接收的图像作为参考图像。

　　(8)为阻止错误在空间上的蔓延，解码器端可以指定当P片或B片中的宏块在做帧内预测时不使用相邻的非帧内编码宏块作为参考。

4、在H.323系统中实现H.264

　　由于H.264是一种新的视频编解码标准，与以往标准在体系结构等方面有诸多差异，在H.323体系中应用H.264存在一些问题，比如如何在H.245能力协商过程中正确协商端点之间的H.264能力和参数，因此必须对H.323标准的进行必要补充和修改。为此，ITU-T制定了H.241标准。H.241标准定义了如何在原有的H.300系列终端间应用H.264视频编解码标准进行通信，废除了一一些不再适合H.264使用的信令，重新定义了一些扩展信令来支持H.264。本文仅介绍与H.323相关的修改。

　　(1)如何在H.245能力协商过程中协商H.264能力。H.264能力集是一个包含一个或多个H.264能力的列表，每一个H.264能力都包含Profile和Level两个必选参数和CustomMaxMBPS，CustomMaxFS等几个可选参数。在H.264中，Profile用于定义生成比特流的编码工具和算法，Level则定义一些关键的参数。H.264能力包含在GenericCapability结构中，其中CapabilityIdentifier的类型为standard，值为0.O.8.241.O.O.1，用于标识H.241能力。MaxBitRate用于定义最大比特率。Collapsing字段包含H.264能力参数。

Profile，ParameterIdentifier类型为standard，值为41，用于标识Profile，ParameterValue类型为booleanAr-ray，其值标识Profile值，可以为64，32，16，分别表示Baseline，Main和Extended三个Profile；

Level，ParameterIdentifier类型为standard，值为42，用于标识Level，ParameterValue类型为unsignedMin，其值标识对应15个可选的Level值。

　　其他的几个参数作为可选项出现。

　　(2)由于H.264中图像的组织结构与传统的标准不同，一些原有的H.245信令不在适用于H.264(如Miscella-neousCommand中的videoFastUpdateGOB，videoSendSync EveryGOB等)，因此H.241重新定义了几个信令。

　　(3)H.264的RTP封装格式参考RFC3550，载荷类型(PT)域未作规定。

5、结束语

　　作为一种新的国际标准，H.264标志着在视频编码技术上的不断进步，它在编码效率、图像质量、网络亲和性和抗误码方面都取得了成功。但随着终端和网络的快速发展，对视频编解码的新要求在不断出现，H.264也仍在继续完善和发展。目前，对H.264的研究主要集中在如何进一步优化算法结构、降低处理时延、提高实时性和进一步提高图像质量上。目前，很多厂家都推出了使用H.264进行编解码的视频会议系统，大多数做到了在Baseline Profile上的互通。试验证明，H.264的图像质量较以往标准确实有很大的提高，尤其是在低码率的情况下。随着H.264自身的不断完善和视频通信的不断普及，相信H.264的应用将越来越广泛。

泰尔网