声扬语音识别系列开发工具
中国科学院自动化研究所国家模式识别实验室
一、总 体 介 绍
- 声 扬 语 音 识 别 系 列 开 发 工 具 ( FlyingTalk-X
v2.0 ) 是 中 国 科 学 院 自 动 化 研 究 所 模 式 识 别 国 家 重 点 实 验 室 经 过 近 十 年 的 悉
心 研 究, 开 发 成 功 的 的 系 列 语 音 识 别 核 心, 是 国 内 自 主 开 发 的 拥 有 完 全 知 识 产
权 的 第 一 个 商 用 化 语 音 识 别 系 列 核 心 引 擎。 该 系 列 开 发 工 具 包 括 四 套 独 立 的 API。
FlyingTalk-Navigation, FlyingTalk-FormFill, FlyingTalk-Dictation。
其 中 FlyingTalk-Navigation 支 持 非 特 定 人 多 命 令 集 语 音 控 制 和 输 入;FlyingTalk-FormFill
可 以 自 行 定 义 有 关 语 法 和 词 汇, 进 行 特 定 句 型 的 非 特 定 人、 连 续 语 音 识 别;FlyingTalk-Dictation
则 除 了 集 以 上 功 能 于 一 体 外, 还 具 有 了 三 个 特 点: 多 个 关 键 词 的 自 动 检 测 和 顶
尖 的 说 话 人 自 适 应/ 非 特 定 人、 连 续 语 音 听 写 和 基 于 词 的 语 音 输 入。
- FlyingTalk-X 提 供 的 应 用 程 序 接 口
(API) 不 但 灵 活、 简 单, 而 且 支 持 多 命 令 集 识 别、 动 态 切 换、 英 语 命 令 识 别, 多 种
工 作 模 式 切 换( 命 令 识 别 - 有 限 句 型 识 别 - 多 个 关 键 词 检 测 - 立 词 听 写 - 连 续
语 音 听 写)、 多 种 发 音 模 式 切 换( 孤 立 语 音 - 连 续 语 音) 等 特 点, 应 用 软 件 开 发 商
只 需 要 非 常 短 的 时 间 就 能 把 该 引 擎 嵌 入 到 自 己 的 应 用 程 序 中 去。 应 用 程 序 嵌 入
本 引 擎 后 可 以 实 现 增 值 的 桌 面 声 导 功 能, 同 时 也 可 广 泛 地 应 用 于 股 票 查 询、 电
话 号 码 查 询 以 及 一 些 用 户 常 用 的 汉 语 文 字 输 入 等。 该 引 擎 识 别 速 度 快、 占 用 内
存 少, 适 合 与 各 种 不 同 规 模 的 应 用 程 序 的 结 合。
- 中 国 科 学 院 自 动 化 研 究 所 模 式 识 别
国 家 重 点 实 验 室, 长 期 从 事 汉 语 语 音 识 别 和 语 音 理 解 方 面 的 研 究, 取 得 了 大 量
的 具 有 应 用 性 的 成 果。 从 有 限 词 汇 的 命 令 识 别、 关 键 词 检 测、 非 特 定 人 连 续 语 音
听 写、 口 语 人 机 对 话 直 至 直 接 语 音 翻 译 (Direct Speech Translation), 这 些
都 为 FlyingTalk-X 语 音 识 别 系 列 产 品 的 较 高 性 能 价 格 比 以 及 功 能 和 版 本 上 的
不 断 升 级 提 供 了 扎 实 的 基 础。
二、FlyingTalk-X
产 品 特 点
- 中 国 人 自 己 研 究 开 发 的 高 技 术 成 果
- 受 国 家"863" 计 划、 国 家" 九 五" 攻
关 计 划、 国 家 自 然 科 学 基 金 项 目 和 国 家"973" 计 划 重 点 支 持
- 近 十 年 的 不 懈 技 术 积 累 和 研 究 探
索
- 精 心、 灵 活 的API 设 计 满 足 不 同 应
用 软 件 的 需 求
- 全 系 列 的 产 品, 能 满 足 不 同 的 需 求
- FlyingTalk-Navigation 占 用 内
存 少, 识 别 可 靠 性 高, 动 态 命 令 集 切 换
- FlyingTalk-FormFill 可 以 广 泛
地 应 用 于 各 种 表 格 填 充, 特 别 是 限 定 形 式 的 表 格 填 充
- FlyingTalk-PalmPC/WinCE 使 PalmPC
的 人 机 交 互 产 生 特 别 的 改 进
- FlyingTalk-Dictation: 则 集 各
大 技 术 之 大 成, 特 别 是 用 于 语 音 文 字 录 入 和 多 个 关 键 词 的 检 测, 用 于 人 机 对
话 等 等
- 灵 活 的 合 作 方 式 和 及 时 的 技 术 服 务
- 合 作 方 式 包 括: 免 费 使 用 部 分 开 发
工 具、 或 只 收 取 一 定 技 术 支 持 费 以 及 OEM 合 作 方 式 等
- 能 不 断 扩 充 修 改 API 以 满 足 不 同
应 用 软 件 的 需 求, 提 供 个 性 化、 本 地 化 的 服 务
- 迅 捷 的 产 品 更 新
- 产 品 的 不 断 专 业 化
- 性 能 的 不 断 改 进 等
三、FlyingTalk-Navigation
- FlyingTalk-Navigation 是 一 个 用
于 识 别 命 令 的 语 音 识 别 开 发 工 具, 该 引 擎 识 别 速 度 快、 占 用 内 存 少, 识 别 率 高(
一 般 可 以 达 到 95% 以 上) 适 合 与 各 种 不 同 规 模 的 应 用 程 序 的 结 合。 具 体 指 标 如
下:
- 词 汇 长 度 从 1 到 8 个 汉 字, 定 义 简 单
- 每 个 命 令 集 词 汇 数 可 以 大 于 500, 支
持 多 达 几 十 个 在 线 命 令 集
- 可 以 动 态 地 设 置 词 汇 的 识 别 和 搜 索
范 围
- 系 统 占 用 内 存 小 于 5 M。
- 灵 活 调 节 识 别 的 可 信 度, 具 有 可 靠 的
集 外 词 拒 识 功 能 等
应 用 场 合: 菜 单 命 令 控 制, 短 语 录 入, 人 机 对
话 系 统 等
四、FlyingTalk-FormFill
- 专 门 用 于 限 定 句 子 类 型 的 汉 语 连 续
语 音 输 入 和 计 算 机 声 音 控 制。 该 核 心 可 满 足 识 别 几 百 词 汇、 几 十 种 句 型 的 任 务
需 求, 在 一 般 的 应 用 任 务 下 准 确 率 几 乎 能 够 达 到100%。FlyingTalk-II 特 别 适 合
于 支 持 表 格 模 式 下 的 填 充 录 入 以 及 带 有 多 个 关 键 词 的 自 然 语 言 理 解 声 控 功 能。
该 引 擎 识 别 速 度 快、 占 用 内 存 少, 适 合 与 各 种 不 同 规 模 的 应 用 程 序 的 结 合。 基 本
指 标 同 上。
应 用 场 合: 各 种 规 范 语 句 和 表 格 的 填 充,
人 机 对 话 系 统
例 如 财 务 帐 单: 上 面 有 日 期, 金 额, 报 销 人
姓 名, 单 位 名 字 等 等, 其 中 日 期, 金 额 是 典 型 的 固 定 句 型。
五、FlyingTalk-Dictation
- FlyingTalk-Dictation 除 了 把 FlyingTalk-Navigation、FlyingTalk-FormFill
集 成 在 一 起 外, 更 重 要 的 是 加 入 了 多 个 关 键 词 的 连 续 检 测 和 非 特 定 人 连 续 语 音
听 写, 提 供 了 命 令 控 制、 有 限 句 型 识 别、 关 键 词 检 测 和 语 音 听 写 等 四 种 工 作 模 式,
用 户 可 以 任 意 选 择 和 切 换。 FlyingTalk-Dictation 大 大 拓 宽 了 语 音 技 术 的 应
用 范 围。
- FlyingTalk-Dictation 特 点 如 下:
- 具 有 非 特 定 人 连 续 语 音 听 写 功 能, 还
可 以 切 换 到 孤 立 词 听 写 状 态, 用 于 通 用 的 汉 字 输 入; 对 于 有 口 音 的 人 具 有 说 话
人 自 适 应 功 能
- 具 有 多 个 关 键 词 的 检 测 功 能; 例 如 用
于 说" 请 汇 总 那 个, 去 年 去 年 的 总 帐, 马 上", 系 统 就 能 获 取 所 定 义 的 汇 总, 去 年
和 总 帐 三 个 关 键 词。
- FlyingTalk-Navigation 和 FlyingTalk-FormFill
中 的 功 能
- 四 种 模 式 可 以 并 行 存 在 与 系 统 中, 支
持 这 四 种 模 式 之 间 的 在 线 切 换。 其 中 听 写 状 态 下 听 写 和 命 令 的 混 合 识 别, 两 者
可 以 并 行 使 用, 使 得 具 有 常 用 编 辑 命 令 的 声 音 控 制。
- 在 线 词 汇 词 汇 管 理, 以 提 高 听 写 系 统
的 效 率;
- 其 中 关 键 词 检 测 率 几 乎 100%
- 听 写 系 统 识 别 率 一 般 可 以 达 到 85%
以 上, 新 闻 类 语 料 准 确 率 达 到 90% 以 上。
六、FlyingTalk-PalmPC/WinCE
- FlyingTalk-PalmPC/WinCE 是NLPR
承 接"863" 智 能 计 算 机 课 题" HPC 中 文 语 音 识 别 API 设 计 与 实 现" 基 础 上 研 制 开
发 的 国 内 第 一 个 专 用 于 掌 上 型 计 算 机 的 语 音 识 别 应 用 系 统。 由 于 掌 上 型 计 算 机
没 有 键 盘, 目 前 普 遍 采 用 手 写 体 识 别 作 为 主 要 的 输 入 手 段, 语 音 作 为 新 一 代 人
机 语 音 交 互 的 手 段, 在 掌 上 型 电 脑 上 尤 其 具 有 其 独 特 的 优 势。 但 是 目 前 的 掌 上
型 计 算 机 由 于 受 到 内 存 容 量、 计 算 能 力 以 及 其 低 信 噪 比 的 声 音 输 入 设 备 等 原 因,
语 音 输 入 在 该 类 电 脑 上 还 没 有 得 到 很 好 的 应 用。
- 模 式 识 别 实 验 室 在 多 年 工 作 积 累 的
基 础 上, 结 合 PalmPC/HPC 电 脑 专 人 专 用 的 特 点, 开 发 成 功 了 这 个 特 定 人 限 定 词
汇 量 语 音 识 别 应 用 程 序 接 口。 利 用 本 套 API, 开 发 商 可 以 非 常 简 单 地 在 其 诸 如
声 音 拨 号、 名 片 管 理、 菜 单 命 令 控 制 等 应 用 中 加 入 语 音 识 别 功 能。 其 特 点 以 及 功
能 如 下:
- 其 设 计 最 大 词 汇 量 可 以 达 到 200 个
左 右
- 对 一 般 人 名 的 识 别 准 确 率 超 过 95%,
采 用 多 个 侯 选 后 识 别 率 为 100%
- 同 口 音、 方 言 以 及 语 种 无 关, 使 用 者
可 以 随 心 所 欲。
- 当 加 入 一 个 新 的 命 令 时, 只 需 要 重 复
该 命 令 二 到 三 遍 发 音 就 可 完 成 训 练, 训 练 过 程 是 渐 进 的, 也 就 是 可 以 在 任 何 时
间 根 据 需 要 加 入, 减 少 用 户 训 练 的 疲 劳 度。
- 训 练 的 语 音 数 据 自 动 回 放, 用 户 用 得
放 心。
相关链接: