流媒体传输的关键问题研究_视像通讯

流媒体传输的关键问题研究

2007/02/07

　　随着视频处理技术的发展，基于流媒体(stream media)传输的视频应用得到了迅速的发展。

　　目前，许多实验性的高速宽带网络都把视频传输的技术和应用作为研究的重点课题。宽带网络的竞争最终将是宽带应用的竞争，由此诞生的基于中速网络的流媒体技术正日益受到人们的关注。它推动了互联网整体架构的革新，转变了传统互联网呆板的内容表现形式，赋予宽带应用更多的娱乐性和互动性，必将成为未来宽带网络的主流技术。

　　流媒体依赖的传输平台是IP网络，由于IP网络的无连接包转发机制主要应对突发性的数据传输而设计，不适用于对连续媒体流的传输。为了在Internet上有效的、高质量的传输视频流，需要多种技术的支持。本文将主要介绍流媒体传输中的一些关键技术。

一、视频压缩处理问题

　　目前，视频流传输中最为重要的编解码标准有国际电联的H.261、H.263、H.264，运动静止图像专家组的M-JPEG和国际标准化组织运动图像专家组的MPEG系列标准，此外，在互联网上被广泛应用的还有Real-Networks的RealVideo、微软公司的WMT以及Apple公司的QuickTime等。其中，Windows Media最新发布的windows media encoding utility v8.O beta包含了windows media audio 8(音频)和windows media video 8(视频)两部分压缩编码系统。windows media video 8采用了的MPEG-4视频压缩技术，实现了在500kbps传送速率下提供接近于dvd质量(near-DVD quality)的画面(分辨率640×480，每秒24帧)。Windows media video 8为电影在线下载观看做了优化，支持true-vbr(真正动态变量速率编码)。Real Networks公司最新发布的real producer 8.5住制作rm文件上采用自己开发的real g2 codec，它具有很多先进的设计，例如，svt(scalable video technology)，双向编码(two-encoding)。双向编码类似于vbr，它可通过预先扫描整个影片，根据带宽的限制选择最优化压缩码率。

　　ITU-T和ISO两个国际标准化组织的有关视频编码的专家联合组成JVT(Joint Video Team，视频联合工作组)，其工作目的是制定一个新的视频编码标准，该标准能实现视频的高压缩比、高图像质量、良好的网络适应性等目标。目前，JVT的工作己被ITU-T接纳，新的视频压缩编码标准被称为H.264标准，该标准也被ISO接纳，称为AVC(Advanced Video Coding)标准，是MPEG-4的第1O部分。

　　H.264比H.263和MPEG-4节约50%的码率，而且对网络传输具有更好的支持功能。它引入了面向IP包的编码机制，有利于网络中的分组传输，支持网络中视频的流媒体传输。H.264具有较强的抗误码特性，可适应丢包率高、干扰严重的无线信道中的视频传输。H.264支持不同网络资源下的分级编码传输，从而获得平稳的图像质量。H.264标准使运动图像压缩技术上升到了一个更高的阶段，在较低带宽上提供高质量的图像传输是H.264的应用亮点。H.264的推广应用为流媒体业务的推广提供技术保证。

二、媒体同步问题

　　在流媒体业务中需要保持一个数据流或者不同媒体流之间的时间关系，即媒体同步是一个重要的要求，包括媒体间同步和媒体内同步。因为传输的多媒体信息在时空上都是相互约束、相互关联的，多媒体通信系统必须正确反应这种约束关系，以保证声音与图像的同步。

　　媒体同步通常有三种类型：(1)流内(intra-stream)同步；(2)流间(inter-stream)同步；(3)对象间(inter-object)同步。由于网络时延导致媒体流失步，媒体同步机制可以确保客户端正确地恢复媒体流的同步，即通过某种方式在媒体内或者媒体间说明其时间关系。说明时问关系的方法有：基于间隔的方法、基于轴的方法、基于控制流的方法和基于事件的方法。对于连续媒体，应用最为广泛的说明方法是基于轴的说明或时间戳。

　　目前流媒体同步最主要的技术有：Microsoft的Windows Media Tools、SMIL语言和Microsoft Producer。Windows Media Technology是Microsoft公司提出的在IP网上传播多媒体流信息的解决方案。整个方案由三个主要部分构成：(1)Media Tools；(2)Media Server：(3)Media Player。SMIL(Synchronized Multimedia Integration Language)通常称作同步多媒体集成语言，是由3W(World Wide Web Consortium)组织规定的多媒体操纵语言。可以实现多个流和文本信息在播放时的时间同步控制和空间位置布置。SMIL语言属于扩展型标记语言XML(Extension Mark-up Language)的范畴，基于XML语法，是一种标记文本语言，包含URL资源管理、基于CSS的页面编排控制、HTML超媒体链接。Microsoft Producer是Microsoft PowerPoint 2002或PowerPoint 2003版的附件，它使用户更容易采集和同步音频、视频、幻灯片以及图像，创建内容丰富、图文并茂的媒体演示，并可以在任何地方的网页浏览器中进行预览和发布。

三、媒体QoS问题

　　目前，运营网络提供尽力而为(best effort service)的传送服务，业务量尽快传送，没有明确的时间和可靠性保障。流媒体需要有较高的QoS(quality of service)要求，QoS通常用带宽、时延、时延抖动和分组丢失率来衡量。

　　流媒体依赖的传输平台是IP网络，而IP QoS用下列指标来表示：传输服务的可靠性、延时、延时抖动、吞吐量、丢包率。目前的IP QoS主要有3种体系结构：(1)MPLS；(2)IntServ；(3)DiffServ。IntServ、DiffServ是被IETF定义的两种QoS体系。IntServ借用传统电路交换思想，在基于IP的呼叫两端，先通过信令建立一条虚连接链路，然后呼叫双方的报文都经此链路传递，从而达到保证传输质量的目的。IntServ基本思想存于以资源预留的方式实现QoS保障，而DiffServ则是传统路由思想的延伸，实现简单。它把流经路由器的数据包按照一定的优先级分类，然后按照优先级顺序将数据包转发至下一跳路由器。多协议标签交换(MPLS)将灵活的3层IP选路和高速的2层交换技术完美地结合起来，从而弥补了传统IP网络的许多缺陷。它引入了“显式路由”机制，对QoS提供了更为可靠的保证。

　　多协议标签转换MPLS支持特殊路由，到达同一目的地的数据包沿不同路径进行转发。MPLS网络主要由标签交换边缘路由器LER和标签交换路由器LSR组成，IntServ试图为每一路呼叫都建立一条虚链路。当网络规模大到一定程度时，维护链路状态的工作将使核心网路由器不堪重负。DiffServ只着眼于网络中的单个路由器，缺乏全网观念。一旦网络发生拥塞，采用DiffServ，报文会被阻塞。

　　通过应用层质量控制技术来改善视频传输的质量，主要包括拥塞控制和差错控制等几方面。采用质量控制的主要的原因是目前的Internet只提供Best-effort的服务，没有质量保证。因此，需要通过应用层的机制来实现质量的控制。拥塞控制的目的是避免因为网络拥塞导致包丢失而造成的质量下降。

　　对于视频流，拥塞控制的主要方法是速率控制。速率控制的目的是基于预测的网络带宽决定发送的速率。有两种基本的速率控制手段：基于发送端的速率控制和基于接受端的速率控制。前者主要基于反馈信息进行速率调节，可以适用于单播的方式或组播的方式。对于单播的方式，有两种速率控制方法，基于探测的方法(probe-based)和基于模型的方法(model-based)。基于探测的方法通过不断调整速率使得包的丢失率低于一个固定的概率值。基于模型的方法直接利用TCP的吞吐率模型计算速率。因此，模型法也被称为TCP友好的速率控制方法。对于单通道的组播，只能采用基于探测的方法。在基于接受方的速率控制中，发送方不参与速率控制，而由接受方通过增加和减少通道的数量来进行速率的调整。通常，这种方法用于采用可扩展编码的组播的情况，组播的视频流分为多层，每个层对应组播树的一个通道。接受方通过增加减少通道获得不同的质量。基于接受方的速率控制也可以分为基于探测的方法和基于模型的方法。除了基于发送方的速率控制和基于接受方的速率控制方法以外，还有一个称为混合性速率控制的方法，兼有二者的特点，即接受方增加减少通道，而发送方同时根据反馈调整各个通道的速率。混合速率控制方法的一个例子是目标集分组的方法。

　　拥塞控制的目的是减少包的丢失，但是无法避免包的丢失。在这种情况下可能需要一定的差错控制机制。差错控制机制包括：

(1)FEC：FEC的目的是通过增加冗余信息使得包丢失后能够通过其他包恢复出正确的信息；

(2)延迟约束的重传。通常流的播放有时间限制，因此，仅有当重传的时间小于正常的播放时间时，重传才是有价值的；

(3)错误弹性编码(Error-Resilient Encoding)：在编码中通过适当的控制，使得发生数据的丢失后能够最大限度的减少对质量的影响。在Internet环境下，最典型的方法是多描述编码(MDC)。MDC把原始的视频序列压缩成多位流，每个流对应一种描述，都可以提供可接受的视觉质量。多个描述结合起来提供更好的质量。该方法的优点是实现了对数据丢失的健壮性和增强的质量。其缺点是相比单描述编码(SDC)，它在压缩的效率上受到影响。而且由于在多描述之间必须加入一定的相关性信息，这进一步降低了压缩的效率。

(4)错误的取消(cancealment)：错误的取消是指当错误已经发生后，接受端通过一定的方法尽量削弱对人的视觉影响。主要的方法是时间和空间的插值(Interpolation)。近年来的研究还包括最大平滑恢复，运动补偿时间预测等。

　　Real Networks采用了大量的应用层质量控制技术来提高流传输的质量。在RealVideo采用了抗损坏(damage-resistant)的编码和FEC技术来减少包丢失的影响，RealVideo支持两种编码：RealVideo standard和RealVideo fractal。前者可以支持从1Ok到500k的编码速率，而且特别为28.8k和56k进行了优化。为了适应网络速率的变化，Real Networks采用了Sure Stream技术，该技术可以避免速率使用机制不能对每个速率进行优化的缺点。具体的方法是：首先在一个文件中同时存储用不同速率编码的媒体流，其次，通过在服务器和客户之间监测带宽的变化来动态的决定使用那个速率的流。这个技术的主要缺点在于不能适应速率的连续控制。

中国信息产业网(www.cnii.com.cn)