将音频标准提高到新的水平
引言
要实现高质量的视频会议,产品的哪个方面的特性最重要?
多数人大概都会说答案很简单-- 一流的视频,然而情况并非如此。目前对于视频会议的直观效果来讲,一流的音频是最重要的,因为与会者之间重要信息的交流通常是通过对话和讨论实现的。具备好的视频和出色的音频的系统比具备出色的视频和好的音频的系统要有用得多。幸运的是,宝利通
能向业界提供具备一流的音频和视频的产品,使客户在购买视频会议产品时可以轻松地作出选择。难怪宝利通拥有一半以上的视频会议产品市场。
宝利通 和所有视频会议厂商面临的一个挑战是:如何实现一种音频质量,获得如同与远端与会者同在一个房间的效果。从最低要求上讲,厂商都在尽量提供相当于传统电话的话音质量。只有宝利通的音频质量,能够达到使远端参与者如处一室的效果。而其他厂商提供的质量要差得多,以至于没人会相信他们与远端处于同一地点。实际上,宝利通的许多竞争者提供的音频质量甚至还不如普通电话的质量。如果口型与声音的同步对用户不是非常重要的话,这些厂商的客户最好关掉系统的音频,拿起电话。
宝利通还利用它特有的音频技术开发了LimeLight。这是一种具有音频自动跟踪功能的摄像装置,可以自动对准说话人。这样,当一个人开始发言时,不再需要手动调整摄像机去对准他,从而减少了开会时的麻烦。
为什么宝利通 能提供具有这样高质量音频的产品,使它的竞争者黯然失色呢?我们将在下面几个部分中找到答案。
音频规范
确定人们处于同一房间里的音频质量的规范标准是什么?首先,人耳通常可以听见20Hz到20000Hz之间的频率。语音信息一般包含在100~7000Hz的范围内。音乐和其他声音则通常涵盖更宽的频率范围。举例如下:
为了达到人耳的全部听力范围,从而模拟正常环境中的声音,视频会议系统应该具有能再现20~20000Hz
范围的能力。系统必须至少能处理到7kHz频率,以提供出色的语音质量,有时也称为FM质量语音。要想达到电话的传音质量,系统必须能够支持至少3.4kHz。
面对面会议的音频还应具有流畅自然的特点。与会者不必担心插话是否会引起回声或声音的中断,以及自己所选择的座位是否会影响声音的收听效果。
为使会议可以有效地进行,视频会议系统同样必须提供这种级别的交互性。全双工技术允许自然的插话,智能的麦克风和自动增益控制(AGC)技术使用户可以随处落座,并且讲话又能被听见。
宝利通创新的、业界领先的方案
音频压缩和传输算法
为了提供最高质量的音频,宝利通的所有产品都可以在标准的、以及自己专有的技术下,提供7kHz、3.4kHz两种音频模式。这些算法是:
G.711 3.4kHz音频标准,占用网络56~64kbit/s
G.728 3.4kHz音频标准,占用网络16kbit/s
G.722 7kHz音频标准,占用网络48~64 kbit/s
PT724 宝利通 专有算法,可以提供7kHz 音频,占用网络24
kbit/s
PT716plus 宝利通 专有算法,可以提供7kHz
音频,占用网络16、24或32kbit/s
PT724使宝利通的客户在与宝利通的其他客户通信时,可以在最多占用工业标准一半带宽的情况下获得7kHz的音频。这样,它在提供一流的音频质量的同时,至少能将额外的24kbit/s分配给数据传输或用于改善视频质量。与使用48kbit/s提供7kHz音频质量的G.722(除宝利通以外的所有视频会议厂商就是采用这种方法)相比,PT724具有以下优势:
省出的比特非常宝贵,它使数据的传输速度更快,或使宝利通领先业界的视频质量更好。
所有宝利通产品都包含PT724。PT724 应用于SG4 通信,以及宝利通设备之间的
H.320标准的通信(通常被称为H.320plus)。工业标准的音频算法通常只应用于与非宝利通设备之间的操作。一些愿意牺牲保真度的客户也可能选择G.728,因为他们需要额外的8kbit/s
以满足数据或视频的高要求。
宝利通一直在不断改进语音压缩技术,发展了PT716plus。PT716plus只用16kbit/s
即可给出7kHz的音频带宽,从而可以再省下一个8kbit/s(与PT724相比)以用于改善视频质量。测试显示PT716plus的音频质量与需用48kbit/s的ITU标准--G.722的质量相同。
1999年9月,ITU最新推出的G.722.1标准,即是源自宝利通的PT716算法。G.722.1,能够在24或32kbps速率下提供7kHz的音频带宽,是普通电话呼叫质量的两倍多,所用速率仅为先前标准的一半。
宝利通的竞争对手无一拥有专有的音频算法。因此,他们的产品要么牺牲音频质量,要么需要更大的频道带宽。
拾音技术
宝利通以其真正创新的麦克风拾音技术领导视频会议业界。宝利通音频研究组开发的麦克风技术将使宝利通产品在未来的许多年里一直处于音频技术的前沿。该技术有助于在SG3、SG4、H.320或标准的声音呼叫(例如,在Concord
上使用Voice Call 选项)时,提供尽可能最佳的音频质量。
定向麦克风
宝利通竞争对手提供的大多数视频会议系统使用的是简易定向麦克风。通常这些麦克风的拾音范围是+/-45度(从麦克风前端的轴线测量)。这些麦克风可以在7英尺(2.1米)的范围内拾音。由于麦克风的拾音范围固定,所以任何拾音范围之外的声音都不会被听见,而拾音范围内的任何噪音源包括麦克上方的通气孔都会被传送到远端。
对于那些小型会议,只要与会者位于拾音的有限范围内,而噪音源又不在主要的拾音路径上,那么用这种麦克风技术也是可以的。但当这类技术用于大型会议时,与会者必须注意坐在麦克风周围特定的位置,在通话时移动麦克风,或在房间内串联上多个麦克风。但是,如果系统不使用特殊的智能,串联麦克风将会导致杂音和回声,而宝利通大多数竞争者没有这样的功能。
宝利通 的某些产品使用简易定向麦克风。宝利通的桌面系统使用这种技术,因为其成本低廉,而且多数用户都位于桌面系统的7英尺和+/-45度的范围内。
超级定向麦克风阵列
超级定向麦克风阵列是 SwiftSite产品的标准配置,安装于系统内部。SwiftSite放置在电视监视器的顶部。超级定向麦克风阵列由三个排成一条线的麦克风组成,来自每个麦克风的信号经过处理和组合后,拾音以及降噪能力要远远好于单个定向麦克风。使用这种阵列,再结合宝利通音频研究组发明的一些非常复杂的处理手段,超级定向麦克风阵列的拾音范围可以达到10英尺(3米)内的+/-45度。该麦克风技术还能在保持对说话者最佳拾音效果的同时,使噪音源方向的信号失效。因此,电扇和通风口的背景噪音大大降低,而人们的说话声则既清晰又响亮。
超级定向麦克风阵列是宝利通开发的一项独一无二的技术,它使SwiftSite产品成为高集成的单一顶置盒装置。在小房间里,即使桌子上没有外接麦克风,也能达到高质量的音频效果。SwiftSite设备里超级定向麦克风阵列的拾音范围极其优越,提供的拾音效果要比标准的定向麦克风优良得多。当然,如果房间比较大,SwiftSite的客户可以选购PowerMic以获得更好的拾音效果。
PowerMic
一种更为复杂的、名叫PowerMic的麦克风是Venue Model 50和Concorde/System
4000ZX产品的标准配置。Venue Model 30 和SwiftSite 产品线也可以选择配置它。
PowerMic是音频领域的革命性成果。该技术的拾音范围覆盖7英尺内的360度,可以获得麦克风周围的所有声音。PowerMic内置有4个麦克风,PowerMic通过对它们信号的合成,能提供可控制的拾音范围。当有人开始发言时,麦克风能够智能地将拾音方向转向前当发言者,在拾音布局方位发生变化时不会造成任何中断。在大房间里,可以串联多个PowerMic以提供更大的拾音范围。由于宝利通音频系统内有智能算法,串联多个PowerMic不会像串联一般定位麦克风那样带来不良效果。
PowerMic的另一个主要优点是它的拾音布局中有朝向天花板的静音装置。这有利于将空调通风口的噪音从音频拾音路径中消除掉。一般的定位麦克风没有这种非常有用的性能。
因此, 使用PowerMic时,人们可以在房间中随处落座,而不必担心自己的声音会不会被漏掉。此外,它还有从音频信号中消除杂音的好处,没有任何竞争对手音频拾音装置可与它媲美。
音频增强算法
除了能提供业界领先的音频拾音技术外,宝利通还引入了几种音频增强算法,它们将有助于增强与远端处于同一房间的真实感。这些算法包括:
IDEC 集成的动态回声消除器(以提供真正的全双工音频)
ANS 自动噪音抑制(消除房间噪音)
AGC 自动增益控制(使说话的音量正常)
* IDEC
IDEC是宝利通音频研究组目前最卓著的成果。回声是视频会议和喇叭扩音器应用中最难解决的音频问题。如果远端的声音通过扬声器进入房间,然后被麦克风接收,声音将会传回远端。如果不采取任何措施,将会导致不小的回声问题。使用简单的回声消除设备时,在当远端说话的时候,近端的麦克风被关掉。在有人插话或两个人同时讲话时,这种半双工方式会导致在某些系统中常会听到的中断。这样一来,声音不是自然的,不能再现面对面交谈的声音质量,甚至还不如通过电话交谈的声音效果。
有了IDEC,真正的全双工音频得以实现,因此,插话和两个人的同时讲话不会造成普通扬声器和视频会议产品里的回声和中断。其他试图靠粗劣模仿IDEC来取得全双工音频效果的扬声器和视频会议系统存在大量的中断和回声问题,它们常常被叫做3/4双工。
IDEC 为何这样特别呢?简单地说,对于扬声器、房间和本地麦克风对从来自远端的音频信号的所有影响,IDEC都加以分析。随后,IDEC建立一个极其复杂的房间模型,用它来预测本地麦克风如何接收未来发自远端的音频信号。然后,从本地音频里减去这些被预测到的信号,回声就不会被传送,从而实现没有中断的全双工音频。回声因此被消除,本地的语音可以清晰而响亮地到达远端。
IDEC不断更新房间环境的模型,因此如果麦克风移动了或房间变样,IDEC会迅速(在几秒钟内)进行调整并继续提供全双工音频。对于没有调整能力、特别是那些在通信开始需要靠传送几秒杂音进行人工设置的同类产品来说,IDEC
具备显著的优势。如果采用那些系统,移动麦克风、人们走动或房间稍稍变样都会大大影响回声消除器的消音效果。
* ANS
ANS(自动噪音抑制)是宝利通开发的一种技术,它可以降低声音频道里的噪音。ANS
算法能够识别真正的声音信号(例如语音)和由通风口、风扇等引起的背景噪音之间的不同。ANS借助它建立的噪音源模型,甚至可以在有说话声的情况下消除杂音。ANS能大大改善简易定位麦克风的主观质量,在与PowerMic或超级定位麦克风阵列共同用于大多数会议环境时,几乎没有杂音。
宝利通许多竞争对手的系统没有噪声抑制,在背景音里总能听到嘶嘶声。一些厂商试图使用噪声门限消除杂音,但当本地的音量低于设定的门限值时,这种做法也把麦克风关闭了。他们总是按噪音低于门限值而所有真正的声音信号高于门限值来考虑,这种处理会导致一个人讲话时,如果有人轻敲桌子、关门或噪音量高于门限值时,产生时强时弱的嘶嘶声,其结果令人非常恼火。
* AGC
AGC(自动增益控制)是另一种算法,它极大地改进了宝利通产品的音频拾音系统。AGC能智能地调节音量,使离麦克风较远的人的声音听起来和离麦克风较近的人的声音一样。AGC
借助尖端智能使耳语的音量低到不会被远端的人听见,使人们的大声喊叫一如他们期望的那样能够有力地表达出自己的观点。
AGC 可以放大离麦克风12英尺(3.7米)内的说话音量,有效地增加PowerMic、SwiftSite超级定向麦克风和任何定向麦克风的拾音半径。
宝利通 竞争对手的AGC实现不像宝利通算法那样完善。它们增加音量的能力有限,并且不知道具体该增加多少音量。
声音的定位(LimeLight)
现在,大多数视频会议进行时都将可移动的摄像机设置在固定位置。开会者要么不愿或担心要学习如何控制摄像系统,要么宁愿把注意力投向会议的主题。这种会议的画面实际上是广角镜头,丧失了视频会议本应具有的面对面时的直接性和人际交流。最糟的时候,一些发言积极的与会者也许根本进不到画面中去。
LimeLight 是一种智能的自动摄像机定位机械装置。它通过使用麦克风阵列和声音信号处理来确定发言者的方位,然后参考一系列的内部规则决定向何处和如何移动镜头;它控制主摄像机进行摇、拉、推,将发言者收入画面。采用LimeLight的会议不需要开会者调整摄像机,相反,摄像机将在两到三秒的采样间隔后对准说话人。以LimeLight为媒介的会议参加者反映当前发言者能够被显示,使会议体验更加丰富。装上LimeLight后,
不仅增加了显示内容,还免去了大量人工控制摄像机的操作,从而使我们向自动控制会议的目标迈进了一步。
事实上,所有的视频会议都能从LimeLight技术中受益,但受益最大的是那些包括两个或两个以上的参加者以及在大中型房间里进行的会议。
LimeLight 的设计思想是按照人工操纵的方式移动摄像机。基本设想是摄像机应该以适合会议发言活动的方式进行移动。为达到这种效果,LimeLight系统能够迅速、可靠并准确地确定房间里的说话者位置,并根据这些信息决定否移动摄像机、向何处以及如何移动摄像机。LimeLight的所有此类活动进行时不需要开会者的介入。
LimeLight 的另一个特点是其摄像机的自动定位模式与人工摄像控制模式结合得十分完美。使用者不管出于什么原因都可以要求打开相应的人工摄像控制,或暂停、关闭和打开LimeLight的自动摄像定位功能。LimeLight
系统提供给用户反馈,并清晰表明"自动到手动"对准模式的操作特性的改变。
具备LimeLight的宝利通系统比传统的宝利通
手动控制系统要容易使用,因此,LimeLight既能适用于该领域里业已使用的机动摄像装置系统,也能适合目前手动控制的宝利通 VCS平台。
拾音技术
宝利通以其真正创新的麦克风拾音技术领导视频会议业界。宝利通音频研究组开发的麦克风技术将使宝利通产品在未来的许多年里一直处于音频技术的前沿。该技术有助于在SG3、SG4、H.320或标准的声音呼叫(例如,在Concord
上使用Voice Call 选项)时,提供尽可能最佳的音频质量。
声音再现
多年以来,宝利通的集团视频会议系统在再现声音时用的都是电视监视器的扬声器。但这些扬声器通常再现语音的效果不是很好,而语音在视频会议应用中是最常被传送
的音频信号。电视扬声器一般用来进行适当且低廉的全带宽音频再现,因此多数扬声器常常听起来象廉价的内置式扬声器。在视频会议中,扬声器最重要的要求是话音清晰。
就象家庭影院的厂商为节目和电影中的语音提供优越的中央通道扬声器,同样,宝利通推出了能实现视频会议最佳质量语音再现的定制的高保真扬声器。这种扬声器由BOSE
和宝利通共同开发而成,可以非常逼真地再现语音,忠实地再现深沉嗓音的低频和改善语音清晰度及易懂度的高频。该扬声器尺寸虽小,但对80Hz(大多数人最低的声音频率)的响应曲线与对1kHz的响应曲线相差最多2dB。该扬声器还可以与WorldCart
和SystemCart2000完美地结合。它是Venue Model 50和Concorde 的标准配置,其他产品可选用。
宝利通的完整解决方案
有了这些一流的音频技术,不难理解宝利通 为何会技压群雄。没有哪个厂商能够提供与宝利通可堪媲美的音频质量--
一种与远端如处一室的质量。
视频会议系统中的音频测试指南
音频测试最重要的规则是埋怨另一边!如果你听见自己的扬声器里传出了回声、杂音或失真,很可能你听到的是来自另一端的噪音,而不是来自你的房间里。下面是测试步骤:
(1)在视频通信时,在近端和远端同时安置测试人员(非公司演示向导)。
(2)确保远端和近端的房间没有被垫上衬垫或经过特殊处理,而是具备有硬质墙面和空调等物的一般房间环境。
(3)让远端的人从麦克风处后退几步并轻声说话,再让远端的人走到麦克风后并轻声说话。仔细听话音的开始或结束。仔细听消失又出现的背景杂音。测试时音频听起来应十分自然。
(4)确保远端和近端扬声器的音量适当。让远端的人不断地读些东西。当远端的人在阅读时,你自己也读点东西。在该次双重谈话测试中,
两边的人都仔细听被中断或失真的词。优良的回声消除器在测试期间只会有微弱的失真。
(5)当你对着远端阅读时,让远端的人移动麦克风。看一看麦克风移动后,你的声音的回声要多久才能消失(回声消除器的收敛时间)。优良的回声消除器只需几秒即可进行再次收敛。