首页>>CT技术培训>>应用篇-把网站内容发送到第三代视频手机>>

把网站内容发送到第三代视频手机

      一.概述

      二.一个有价值的建议――把视频看作一个延伸层

      三.网关功能需求

        3.1 物理层
        3.2 媒体流层
        3.3 应用程序层

      四.网关结构

      五. 特别的挑战

        5.1 流化的音频
        5.2 流化的视频
        5.3 图像的视图控制
        5.4 用户输入

      六.典型应用

        6.1 应用特征
        6.2 音频/视频通讯
        6.3 需要文本输入的应用
        6.4 选择的自由

      七.商业模式

      八.NMS能帮什么忙?

      术语表


一.概述                           

  基于3G团体开发的3G324M标准的无线视频手机,现在已经被无线业务提供商用于动态图像呼叫。把普通网站的内容发送到那些手机上的业务会很有价值。

  本文考究一个能把网站内容发送给视频手机用户的网关。评估了网关中各种必要组成部件的成就,并解决了一些特别困难的问题。用详细精确的应用例子说明网关的工作原理,并评估了它在促进新业务方面的潜力。

  NMS通信公司为正在出现的3G无线视频技术OEM厂商和开发商提供广泛的业务支持和解决方案。特别关注为无线视频手机用户提供新业务的网关,这些网关允许从传统电话网和IP网接入到呼叫对象和视频内容。最初配备的3G324M无线视频手机的使用情况,以及业务供应商尽可能补充旧2G设备的需求,都是在短期内指导网关设计的因素。本文所讨论的网关就是NMS准备为客户需求而开发的网关例子。
                                             TOP↑

二.一个有价值的建议――把视频看作一个延伸层


  许多不同的无线设备正为把网站内容发给移动用户这个有巨大潜力的市场而展开竞争。如果我们把这些无线设备按功能作一个条形分布图,那么条的一端是:智能化、全功能的设备,比如膝上型电脑和PDA,如果提供有标准的因特网连接,它们都能以自己的方式呈现出网站的内容。而条的另一端是哑终端,它们几乎需要全部由内建于网关的智能来呈现网站的内容。WAP设备处在条的中间位置,它只能呈现一些由网关提供的内容,但在设备内能处理某种形式的HTML。

  在不久的将来,象3G324M无线视频手机(如图1所示)那样的哑终端,极具潜力占领最广阔的市场。3G324M是由3G无线团体开发的标准,它定义了和简单视频手机的通信。在手机之间或手机与网关之间,全双工的流承载着以下信息:以简单轮廓MPEG-4格式编码的H.263视频、AMR编码的音频和H.245控制信息,每个方向的所有这些信息用H.223标准复用成为单个流。对于这些流的进一步传送,可以由传统2G设备提供的TDM电路来完成。
在很长一段时间以来,格言"网络的智能会转移到外围设备上"很可能包含着真理。对于无线万维网应用来说,一个紧凑、不贵又高度智能化的移动设备,再加上一条连接到因特网的普通宽带IP路由,就是最理想的方案了。然而,多年来现实已证明,有许多限制因素使得这种想法无法实现。目前的智能移动设备笨重而又昂贵,而且使用现有的电池技术要存贮足够的电力还有问题。在使用怎样的键盘和显示终端的问题上也有一个内在的冲突:用大一点易于使用的呢,还是用小一点的便于携带呢?另外,传统的蜂窝网络是设计用来承载64kbps 的语音电路的,而不是高速因特网接入所要求的宽带包。

  然而,H.263协议和硅半导体技术使得生产一个紧凑的、相当便宜的视频手机成为可能,并且这种手机在传统的64kbps电路上工作得很好。用于下一代无线手机的3G324M标准可以作为一个"延伸层"(spanning layer)。"延伸层"是MIT的David Clark 使用的一个术语,它描述的是一个既简单又可以广泛使用的标准,这个标准允许相互竞争的设备提供商和应用开发商大团体能相互独立地工作,却又共同形成一个产业。3G324M标准可能允许无线业务提供商推出用于视频呼叫的手机,而对将来的应用又没有做出特别的规定,如万维网内容的递送。这样,网关供应商就可以推动其它环境的应用开发,以提供丰富的新业务,比如到商业视频会议设备的连接业务、视频邮件业务、网站内容递送业务。3G324M无线视频手机也要有比较好的配备才能处理一些极困难的网站内容接收,也就是视频和音频流。

  如果是在经济高增长时期,可以说服无线业务提供商和他们的用户去购买已可用的3G设备。但事实上是目前两者都为超预算所困扰。这就意味着,只要有可能业务提供商就会尽量使用2G设备。这可以作为最接近公共电话网的系统的一部分来实现,并且仍然支持3G324M手机的使用。对大部分潜在的用户来说,当前他们不会选择购买一个昂贵的无线PDA,因为习惯于蜂窝电话机是作为蜂窝业务的一部分免费提供的。然而,如果无线运营商配置的是一种相当便宜的视频手机,并让用户预交一定量的新业务费用,就可以沿用这种商业模式了。网站内容网关的配置可以随着使用用户的增加而加大,这样可以免除业务提供商任何不必要的前期费用。网关中为递送网站内容作准备的智能设备越贵,在忙时就越要满负荷使用,因为达到满负荷使用是提供低成本效益比业务的关键。但是,即使是使用最频繁的用户,他的智能手机大部分时间也处于空闲之中。因此业务提供商在刚开展业务时会配置少数几个智能设备,只有能达到满负荷使用时,才作进一步的扩容。



图1 无线视频手机

                                                                                     TOP↑

三.网关功能需求

  对于处在两个规范网络间的网关,总的需求是很简单的:在所有层上匹配两个网络间的功能,处理两个网络间的任何转换需求。所有在这里描述的功能要求也可以应用到不是遵循3G324M标准的无线视频手机,任何的不同都可以通过网关的轻微调整来适应。



图2 3G324M-网站内容递送网关网络拓朴

 3.1 物理层

  从无线侧看来,网关只是标准视频呼叫中的一方。(如图2所示)物理层很可能使用标准的T1或E1中继连接到公网级电路交换机。假设每个视频呼叫需要一个64kbps 的中继通道(虽然也可使用多个通道)。无线侧的呼叫建立会使用ISDN协议,这个协议支持多个通道的绑定。这个64kbps流的内容是以下信息的组合:H.263视频、AMR编码的音频、H.245协商消息。组成的方法是按照H.223多路复用。H.245协议用于起动视频和音频流。

  在网关的因特网侧,标准的网站浏览通过以太网物理层来完成,使用HTTP/TCP/IP协议来访问网页。内容递送网关是以面向因特网的浏览器的角色出现的。
为了能提供这一新业务,不管是无线网还是因特网,都不需要调整。只有网关自己和无线用户才需要知道:这两个网已经接合起来了。

                                        TOP↑

 3.2 媒体流层

  给手机的视频信号必须从当前网页的内容生成。对于HTML或JPEG,可以形成一个静态图像,然后再转换成简单轮廓MPEG-4视频帧,并简单地重复这个帧就可以了。流化视频需要从其它一些视频格式实时转换成简单轮廓MPEG-4。任何从无线视频手机发来的视频都会被简单丢弃。

  对于音频,大部分的时间会产生AMR静音信号,然后发送到手机。当接入的是流化音频时,可能需要先从别的音频格式解码,再编码成AMR。从手机发来的音频通常会被丢弃,但是也有例外,象:用于语音识别的音频输入、用于DTMF检测的音频输入和某些H.245消息,它们用于组成典型的用户给浏览器的输入,就象电脑中的鼠标和键盘。
                                        TOP↑

 3.3 应用程序层

  在应用程序层,从无线手机发起的呼叫建立状态包括用ISDN得来的主叫标识去:形成计费话单、登录到主页、跳转到书签处和收发邮件业务――为用户建立一系列的标准浏览器功能。有些附加的密码输入会用于额外的安全要求。连接一旦建立,以下各种鼠标操作对任何应用来说都是需要的:点击一个新的链接、显示一个新的网页、跳到大量排序数据的某部分。然而,由于无线视频手机的限制,这些都会遇上特别难于解决的问题。这些问题会在本文的"特别的挑战"一节进行更详细的讨论。
                                        TOP↑

四.网关结构

  图3所示为网关重要组成的分解图。网关机箱很可能是一个Compact PCI机箱,机箱中包含了作为网络中一个节点的所有组件。基本的视频呼叫和浏览器应用可以运行在主处理器上,但T1或E1接口需要由附加模块来支持。为了支持大量的端口,还需要附加的以太网接口和自定义的视频处理模块。T1/E1接口通过公共电话网接入无线交换中心,也可以直接接入到无线交换中心。以太网接口会通过标准IP路由器接入到因特网。

  图3 强调的是3G324M网站内容递送网关的组成。它支持网络管理功能和用户管理功能,同时通过附加的链路处理计费话单,这个附加链路很可能是这里没画出的另一个IP网。完成标准浏览器功能的模块在图3的最右边,支持标准无线视频呼叫的模块在左边。

  最粗的箭头表示实时媒体流。稍小一点的箭头表示控制消息和非实时媒体传送。由于到手机的视频流占用较窄的带宽,音频和视频数据流可以做类似的处理。对于一个有大量端口的大规模系统,设计时应该支持在以太网和T1/E1中继间的实时媒体流,而不要让它们通过主处理器或PCI总线。T1/E1中继和以太网接口模块可以合并,包括其中必须的视频和音频处理。或者在Compact PCI模块之间用新的、高带宽的交换结构来处理实时数据流。


                                        TOP↑

  对于HTML网页,标准浏览器功能会建立一个类似于PC浏览窗口的内部图象,然后由特定网关功能对图像加工,形成一个适合于手机显示的视频流。网站中的其它静态图象,比如JPEG,不需要生成HTML网页内部图象,而是能直接加工成视频流。第三种形式的内容及视频剪辑,不会使用从静态图象到视频流的加工过程,但需要从某种视频格式(如MPEG-2)解码,再编码成为手机的简单轮廓MPEG-4视频格式。

  处于图3中间的部分组件代表一些本文下一节将会详细讨论的具有挑战性的领域。对任何类型的图像都必须做一些视图的编辑以补偿由于转换到简单轮廓MPEG-4所造成的分辩率损失。由于无线手机没有全功能键盘,所以用户的文本字符串输入需要做特别处理。为这些限制建立特别处理是提供的业务有没有价值的关键,否则,可能由于业务的使用太麻烦,以至于推广不开来。

                                        TOP↑

五.特别的挑战

  建立一个有用网关时最难解决的问题是必须注重人类工程学方面的设计。虽然方案选择也可能是一个特别的技术挑战,但最隹方案的决定根本不是技术上的运用,而问题正好出现在易于表述的技术问题上,例如:从网站送出的音频可以达到CD般的质量,但是送给手机的AMR编码音频只能满足仅可听懂的话音质量。大部分网页都是设计用于个人电脑屏幕的分辩率(1024x768)。而视频手机大部分都受限于H.263 QCIF的分辩率(176x144),一条线上的分辩率差距高达6倍。而且,设计时用户和网站服务器交互使用的是鼠标和全功能电脑键盘,而无线手机只有一个非常受限的小键盘。

  一个有利的情况是:大部分网站的设计都虑到了大多数的用户仍然使用拨号上网,因此许多网站为有宽带接入和无宽带接入的用户提供了并行的不同浏览途径。拨号连接那有限的带宽正好和无线视频手机的收发带宽具有可比性,因此,即使需要的信息表述和交互的方式相差很远,无线用户也可以选择为拨号用户设计的网页,以便有信息递送时获得和拨号用户差不多的响应时间。

  5.1 流化音频


  流化音频的应用很少,并且在应用中都处于不重要的地位,对信息的内容来说,它不是实质性的。对于一系列重要的小应用,如:新闻和体育评论、以及季度财务报告大会的收听,话音的传送就很关键。在所有这些情况下,AMR编码的话音质量让用户听懂是足够的了,但如果要用这种AMR通道来传送CD质量的音乐,就会明显显得不足。即使电脑用户下载音乐片段的速度要比实时慢得多,但他下载回来后仍可以听到高质量的回放。在一个非智能的无线手机上无法提供这种能力。AMR编码的音乐也有一定的价值,但它不是以娱乐为目的的。把来自网站服务器的流化音频转换成手机需要的AMR编码音频是一个简单的技术问题,但是需要大量的计算能力。明智的做法应该是在一个附属的模块上用DSP资源来做这种运算,而不要在网关的主处理器上做这种运算。
                                        TOP↑

  5.2 流化视频

  同样地,流化的视频现在也不常用。在使用它的大部分应用中,视频都是显示在整个电脑屏幕内的一个小窗口之中。这个小窗口的分辨率近似于手机上的完全QCIF显示。必须用一种方法把视频缩放到容纳它的屏幕窗口一般大,但在这两种收看环境中其它的收看感觉是大致一样的。在某些情况下,也许可以通过和流服务器协商,让服务器直接送本来手机需要的简单轮廓MPEG-4视频流。可是,如果这种情况不可能,就需要配备高强度运算的转换功能,来把视频从一种格式转换成另一种格式。这种高强度运算的转换功能最好在一个附属的模块上用附加的硬件资源来完成,而不要由网关的主处理器来完成。
                                        TOP↑

  5.3 图像的视图控制

  所有网页的原组件──JPEG、HTML或其它形式的组件── 一幅个人电脑屏幕上的完整图像,要显示在手机的小屏幕上,对大部分普通应用来说这个小屏幕的分辨率都是不够的。适当剪裁应用程序的显示介面,以适应小屏幕的显示,会得到很好的使用效果。我们的目标是在网关支持视频手机的这些独特显示,使得手机能访问普通的网站。可以成功实现这个目标的两种技术是:
  ■ 通过屏幕的局部视图进行用户输入的控制;
  ■ 用"动"来补尝分辨率的低下──使用附加于视频流中的连续帧。

  缩放和取景窗是广泛使用的视频控制技术,这些技术也适用于这里介绍的方案。各级缩放都只有一个方向的控制(只有放大或只有缩小)不会有明显的麻烦,只要三级的缩放就能达到个人电脑全屏的分辨率(QCIF x 8=1408 x 1152),只有用到四级以上的缩放,才需要同时为每级提供放大和缩小两个方向的控制。在普通浏览操作中,需要通过鼠标来控制光标的移动。在一个缩放和取景窗的系统中,光标控制(上、下、左、右四个键)同时也作取景窗控制用。画面缩放后光标会保持在视窗的中央,移动窗口就可以看到图像的其它内容,直到整幅图像的边为止。所以,一个标准的操作过程是这样的:一个新的HTML页面开始会以全屏的方式显示,中间有光标用于放大,用户可以把光标移动到自己感兴趣的内容上,然后按下放大控制键。这一操作过程可以根据需要一直下去,直到能清晰地看清要看的内容。特别需要注意的是,在给出一个文本输入框时,取景窗要放置在输入光标位置的中间,而不是鼠标光标位置的中间。直接的取景窗控制也是允许的──上、下、左、右控制──类似于普通个人电脑屏幕上窗口边或底部的滑动条。

  视频中的帧流允许用户控制的取景选择。一旦达到想要的缩放级别,自动扫描方式会停下来,并以这个缩放级显示整个页面,不再需要用户的干预。对于英文内容的页面,扫描会从左到右,从上到下的进行。如果能控制在每个方向上的扫描速度会很有用,但从另一方面看,增加额外的控制又是很麻烦的。也许以一个预设的扫描速度来搜索整个页面,而以另一个预设的较慢速度由上到下移动用于阅读,会乎合最普遍的要求。

                                        TOP↑

  5.4 用户输入

  和图像显示相比,用户输入甚至是一个更大的挑战。无线手机的小键盘和全功能电脑键盘及鼠标相比实在受到太多的限制。手机击键可以转换成音频流中的音频信号,比如DTMF信号。但由于DTMF信号具有持续时间短和占用频带窄的特点,造成AMR音频编码不能可靠地转换这种信号。H.245协商通道可以用于传送象击键那样的控制信息,但是由于没有相关的标准,需要在手机上做特殊的处理。使用手机最通常的输入方式是语音输入(没有音频信号和H.245消息),这个时候就要用语音识别了。

  这些年来语音识别的准确率已有了很大提高,但是象AMR那样有限的带宽通道,以及一般移动呼叫都有比较大的背景噪声,都会造成识别率的严重下降。这就要求对词汇表做一些处理,最好使用尽量少的词,表中的词没有二义,发音不能相同。为了提高识别的准确性,甚至要存贮用户的特殊发音特征。最频繁使用的鼠标控制和视图控制输入最好单独形成一个子词汇表,大约有10个词:上、下、左、右、停、点击、放大、缩小、扫描、阅读。剩下的主要是文本输入,可能需要几个子词汇表。用于输入数字的子词汇表自然也大约是10个词。发音问题显然也是一个很大的挑战,因为很多字母的组合发音相象。有一些可能的办法,包括:用说出数字来代表电话小键盘上的字母;或者说出组成单词的每一个字母来表示该词(Alpha、Bravo、Charlie、….)。另外,还要包含各种标点符号。用于纠错的编辑命令也是必须的。对用户来说所有这些文本输入技术都意味着一种负担。能够仅由鼠标来操控的网上应用似乎是易于访问的,但是这样的应用如果需要文本输入就太难解决了。



                                             TOP↑


page1page2