首页>>厂商>>语音识别与合成>>科大讯飞

技术创新推动应用进程
——
简述讯飞中英文混读系统的创新性和实用性

2002/01/07

  最近,263网站开通了“263在线”语音邮箱服务,用户只要通过电话就能获悉油箱中的电子邮件,而且无论是中文、英文还是中英文混合的内容,都可以打电话及时听取。诸如此类的及时语音服务已在上海、辽宁、山西、安徽等省市的电信行业开通,让人们切身感受到语音技术带来的便捷、高效的信息获取方式。

  处在一个信息爆炸的时代,如何快速准确地获取各种信息,对人们的日常工作和生活已经具有越来越重要的意义。在电话高度普及的今天,如果所需信息都能及时转换为语音的方式,通过电话就能查询到这些所需信息,无疑将给人们的日常生活带来极大方便。

  众所周知,语音合成技术能够以有限的资源占用,将各种文字信息及时转化为连续的语音,是一种能够在任何时间、任何地点向任何人提供公共信息服务的有效手段。近年来,随着中文语音合成技术的迅速发展,中英文混读技术也不断获得突破,已经能够完全适应大规模、多领域的应用。

  在中文语音领域处于领先水平的科大讯飞最近推出讯飞InterPhonic C&E Rev 1.0系统,能够解决中文和英文混合出现在各种文本中的语音合成问题,并在业界首次实现了中文、英文抑或中英文混合的合成,都能够达到普通人说话时的连续、自然、可懂的语音效果。此外,针对大吞吐量、高性能、稳定的高端应用,该系统还提供基于TCP/IP网络的集群式语音合成服务,语音合成服务采用动态负载均衡机制对任务进行动态调度,很好地解决了海量信息和动态信息的实时查询,满足了企业级乃至电信级的CTI应用要求。

技术创新

  对于中英文混合的语音合成,传统的解决方案是采用中文和英文两种合成引擎,合成时先分离中英文文本,再在不同的引擎下进行合成,最后汇集合成数据输出。但这种合成方法存在着中英文不同音、衔接部分跳跃大等弊端,难以实现较好的合成效果。另外,语音合成技术领域,在已有的单一语种(如中文、英文等)语音合成方法的基础上,开发不同语种的语音合成系统,可行性不大。

  讯飞InterPhonic C&E Rev 1.0语音合成系统首次将中英文混杂的文本作为第三种语言进行专门研究,并建立了一套综合考虑中英文混合情况的文本分析体系和韵律规则模型,中英文音库的录制也由同一个人完成,保证了合成效果的一致性;同时采用了独立于语种研究的方法,提高了不同语种的重用性,使得该套研究方法易于扩展到其它语种。

  具体来讲,该套系统创新方法有:

  多语种文本分析体系 能同时对纯中文、纯英文或是中英文混合文本进行相应的处理。该分析体系具有完备的文本分析库知识,并在人名识别规则、多音字处理规则、特殊符号处理规则的积累方面已走在世界前列;

  先进的语言学层次结构体系 首次将国内最新的汉语连续语流标注体系CToBI的进行工程化应用,可以准确的对连续语流中不同层次的语言现象进行描述,同时采用先进的汉语语音韵律描述体系,提高了系统的整体语音效果;

  基于数据统计和人工智能的韵律模型构架 该系统基于先进的大语料库语音合成方法,进行了超大规模的自然语流数据库的制作,并以此作为数据统计和机器学习的训练数据,并建立了较为完善的基频、时长、能量、停顿模型,同时将规则方法和统计方法进行了很好的综合,有效地提高了系统的总体水平;

  改进型PSOLA算法的韵律调整功能 采用最先进的Psola语音算法工具,使得系统在语速调整和运行稳定性等方面有更加优秀的表现。

  由于进行一系列的技术创新,该中英文混读系统达到了高自然度、高流畅度的语音合成效果,据权威机构评测,该系统在针对新闻等不同文体的文本合成,均可达到4.3分(5分制)的自然度,完全能够适应各种多语种文本的语音合成场合,在社会的各行各业都有极为广阔的应用前景。

应用范围

  讯飞InterPhoic C&E Rev 1.0语音平台能够运用于新一代(电信级集群)声讯服务、企业级呼叫中心、、电信、银行、证券等行业的客户服务中心、网站语音门户、语音邮件系统、统一信息服务等系统之中,也可以运用于现有IVR平台之上。

电信业客户服务中心

  讯飞语音合成技术除了能够完成电信业原有的114查号系统、话费查询、话费催缴、代缴以及电信法规、业务咨询等基本业务,还可以促进电信业结合自己的电话网络资源优势和信息源优势,搭建各种电话信息应用平台,提供诸如预订业务、大众呼叫等多项增值服务。在提供高质高效的服务的同时,节省了运营成本,促成呼叫中心由成本中心向利润中心转换。

证券业客户服务中心

  讯飞语音合成技术完全可以满足用户海量、动态信息高质量的语音查询需求,以清晰自然的语音实现像个人信息(包括资金、股份、委托情况、成交情况等)、股市行情(包括股票行情、指数、指标等)以及股评与业绩报告的实时查询。采用语音合成技术还可以将证券业务拓展到通信网,用户可以通过电话很方便的进行股票交易、银行转帐等多项业务。

银行业客户服务中心

  讯飞语音合成技术可以使银行业客服中心实现账户资料查询、历史记录查询、利率汇率实时查询等多项动态查询业务,同时可以帮助电话银行扩展自动服务业务种类,可以全天候的提供转帐、自助缴费(包括手机费、寻呼费、电费等多种费用)、银证转帐、银证通(客户可直接使用银行账户在电话银行中进行股票买卖业务)、外汇买卖(客户进行按键操作进行外汇买卖)、账户挂失等多项服务。

保险业客户服务中心

  语音合成技术能够提供公司公共信息、客户保单信息、业务员认证信息的动态咨查询服务,而对语音合成技术的充分应用可以改变目前保险业客服中心可操作性差的弱点,完成从投保续保、出险理赔直至赔案查付等多项职能,同时业非常方便各地保险公司针对当地市场情况开展特色服务。

电力行业客户服务中心

  在电力行业中语音合成技术可以向用户提供业务受理进程查询、电费额明细查询、电费催缴、故障通知以及其他各类信息咨询,如供电企业概况、供电营业区划分、主营业务、供电抢修联络方式、国家及地方政府的有关电力方面的政策、文件、规定、措施等信息。在此基础上,可以利用已有的资源进行外包,可以充分利用公司的各种软、硬设备和优势促进公司发展,增加公司收入。

邮政行业客户服务中心

  语音合成技术可以帮助邮政客户服务中心将以一个统一的服务平台面向用户,融合包括邮政金融、邮政特快、报刊发行、集邮等在内的各项邮政服务,为用户提供咨询、查询、受理以及投诉等多项业务。通过服务水平的提高和服务内容的增加,带来经济效益和社会效益的双丰收。

  此外,采用语音合成技术可以改变原有声讯平台提供服务种类单一的弱点,开展诸如考试查分、广播电视节目的动态查询、节目的实时点播与点评、电话学位防伪查询系统、电话产品防发展空间。采用语音技术的电话因特网可以实现电话网和因特网之间的信息互访:一方面,能够将因特网上的文字信息转换成电话网上的语音信息,另一方面,也能够将因特网上的信息流发送到电话网的电话终端上,从而使得网站语音门户可以提供诸如有声电子邮件、语音聊天室、电话购物等服务。在不远的将来,集成语音技术的语音门户系统必将成为一个全能的“翻译器”,将无穷的互联网资源通过电话提供给用户,为用户提供全天候、全方位的服务。

科大讯飞公司供稿 CTI论坛编辑



相关链接:
讯飞畅言语音教具系统荣获“创新软件产品” 2009-09-08
科大讯飞嵌入式语音新产品发布会在深圳举行 2009-09-07
“会说话”的显示屏提升居民小区信息服务水平 2009-09-07
讯飞语音助力太平人寿客服中心 2009-08-28
讯飞语音助力CDMA手机竞争终端市场 2009-08-14

分类信息:  呼叫中心_与_语音合成TTS  呼叫中心_与_语音合成TTS     技术_呼叫中心_解决方案   技术_呼叫中心_文摘   技术_语音合成_文摘