首页>>厂商>>语音识别与合成>>得意音通

"得意关键词检出器"API

2003/11/24

  "得意关键词检出器"技术是一种自动语音识别(ASR)技术。它应用于一些具有特定要求的场合, 由于速度、高检出率或其他特定的要求,人们并不需要系统识别出整个句子,更不需要理解整个句子,而只关注那些包含特定词(称为"关键词")的句子。比如,对一些特殊人名、地名和词语进行电话监听,又比如通过人名进行自动分机接驳服务,等等。

  根据一些应用的特殊需要,关键词检出器有一些有别于其他自动语音识别的地方。包括:
  (1) 有的应用需要限定或假设一个句子只能含有一个关键词(如自动分机接驳),而有的应用则不希望有这样的限定(如电话监听)。
  (2) 有的应用希望"宁错勿漏"( 如电话监听),而有的应用则希望"宁漏勿错"(如自动分机接驳)。关键词集内的词没有被检出,称为"漏识",而关键词集外的词识别成一个集内词,称为"误警"或"虚报"。 对一个特定的关键词检出器,漏识率和误警率两者不可能同时达到其最低点。因而相对于其他语音识别器,关键词检出器需要在漏识率和误警率之间找到需要的平衡点,称为"操作点"。

  "得意关键词检出器"的应用编程接口(API)有如下的特征:

  (1) 非特定人。得意关键词检出器对不同人的说话有一定的适应能力,不管是谁,只要说的是标准普通话即可,带一些轻微的口音没有任何影响。
  (2) 词表可随意定制。开发者可以利用API接口,方便地提供词表定制工具,使得使用者无需具备专业知识就可以方便地定义自己的词表;对新定义的词表,系统无需重新训练,立刻可以使用。
  (3) 句中关键词个数可以设定。开发者可以根据具体的应用情况,方便地指定一句话中仅含一个关键词(只报出最可能的关键词),还是允许多个关键词(检出多少关键词就报多少)。
  (4) 良好的拒识性能。利用性能良好的拒识功能,检出器将根据具体情况报出所检出关键词,不会因使用者设定的句子中可以含有的关键词数目而强行虚报。
  (5) 得意关键词检出器具有很低的漏识率和很低的误警率。
  (6) 操作点易于调整。开发者可以根据具体应用需要,方便地设定操作点,以在漏识率和误警率之间达到很好的平衡。


  (7) 得意关键词检出器利用很好的通道归一技术可以在各种不同的信道(如固定电话或手机)中使用,而不影响其性能。
  (8) 得意关键词检出器声学模型所需存储<40MB。
  应用举例:"得意智能语音总机"产品

  得意智能语音总机是利用得意关键词检出器的API开发出来的一个具体应用。具体技术设定为:
  (1) 词表为人名,并附带分机号码信息。
  (2) 每句话中最多含一个关键词。
  (3) 操作点靠近低误警率一端。

  一个实际应用范例如下。
  下表是由某公司人事部门的管理人员输入的用户词表:


  修改完毕后,得意智能语音总机的内部词表编译器将自动把上述词表转换成内部词表。转换过程主要用拼音标出每个姓名的发音,同时对一人多名和多人同名进行检查。当有多人同名并且没有"确认信息"或确认信息不能分出这些人时,内部词表编译器将提示管理人员输入可以互相区分这些人的确认信息。在发生重名时,确认信息用以与用户进行对话以便确认要找的人。
  对话示例:
  a. 系统:请于哔声后说出要找的人的姓名,按#跨过该提示,按0进入人工服务…哔…
  b. 用户:你好,我找张总。
  c. 系统:转接张三,请稍后… [转接1001分机]。
  a. 系统:请于…
  b. 用户:[按#]
  c. 系统:哔
  d. 用户:王…王五在吗?
  e. 系统:转接王五,请稍后…[转接1003分机]。
  a. 系统:请于…
  b. 用户:[按#]
  c. 系统:哔
  d. 用户:麻烦你给我转接李四先生。
  e. 系统:请问你找市场部的还是财务部的?
  f. 用户:市场部的李四。【注:由于系统已经自动转换为用户确认词表,因此不会检出"李四"。】
  g. 系统:转接市场部李四,请稍后…[转接1002]。
  a. 系统:请于…
  b. 用户:[按#]
  c. 系统:哔
  d. 用户:请接张山。
  e. 系统:如果您是找张三,按1;按#可重说;按0可转人工服务
  f. 用户:[按1]。
  g. 系统:转接张三,请稍后…[转接1001]。

  应用举例:"得意导航员"产品

  利用得意关键词API,可以设计一个用声音对Windows操作系统进行"发号施令"的"得意导航员"产品。在这里,用户只需口呼命令就可以直接控制Windows,如口呼"我的电脑"、"打开字处理(即Word)"等可以打开相应的资源或应用,而且应用程序运行后,导航系统可以自动提取那些当前活动的菜单项,甚至是活动菜单的隐藏菜单子项,供用户口呼使用。这个过程是自动的,是对用户透明的。
  与利用得意命令SDK开发的语音命令导航员不同,得意导航员允许用户的命令更灵活,可以夹杂一些其他的字词。

得意音通公司供稿 CTI论坛编辑



相关链接:
得意珠三角综合智能信息增值平台项目中标 2009-08-20
北京软件产品质量检测检验中心对《海量语音文件的目标说话人筛选系统》进行测试 2009-06-25
广东政府和清华大学举行了全面开展产学研合作协议签约仪式 2009-06-25
得意中文整句输入法V1.0开源for Windows Mobile5.0 2009-01-23
得意声纹识别VPR4.0_b20080808新版本发布 2008-08-27

分类信息:     技术_语音识别_解决方案