CAPIO 2017 会话式语音识别系统

Dec, 2017

The CAPIO 2017 Conversational Speech Recognition System

Kyu J. Han, Akshay Chandrashekaran, Jungsuk Kim, Ian Lane

TL;DR论文展示了达到了 NIST 2000 Hub5 英语评估集的最先进表现，提出了一种基于密集连接 LSTMs 并激发于图像分类任务的密集连接卷积网络的方法，以及一个声学模型适应方案，并在 CallHome 训练语料库上应用了该方法，并在评估集的 CallHome 部分中平均提高了 6.1％（相对误差率），并且在 Switchboard 部分没有性能损失。

Abstract

In this paper we show how we have achieved the state-of-the-art performance on the industry-standard NIST 2000 Hub5 English evaluation set. We explore densely connected lstms, inspired by the densely connected convolutional networks recently introduced for image classification tasks. W

speech recognition neural network lstms acoustic model adaptation word error rates

发现论文，激发创造

IBM 2016 英语语音电话对话识别系统

使用声学建模和语言建模等技术，结合三种模型得出了一个新的 LVCSR 系统，结果在 Switchboard 上实现了前所未有的接近于完美的 6.6% 的错误率。

Apr, 2016

Microsoft 2016 会话式语音识别系统

本文介绍 Microsoft 的会话式语音识别系统，其中采用了近期发展的基于神经网络的声学和语言建模技术，结合机器学习集成技术，使用了多种卷积和循环神经网络，通过 i-vector 模型建模和不带晶格的 MMI 训练，在声学建模架构的所有方面都提供了显著的增益率，使用多个前向和后向运行的 RNNLM 进行语言模型重新加权以及基于词后概率的系统组合，提高了 20％. 最佳单一系统使用 ResNet 架构声学模型与 RNNLM 重新加权，可在 NIST 2000 Switchboard 任务上实现 6.9％的词错误率。结合系统的误差率为 6.2％，这是对此基准测试中以前报告的结果的改进。

Sep, 2016

微软 2017 年会话式语音识别系统

本文介绍了微软 2017 年的对话语音识别系统，采用了基于神经网络的声学建模和语言建模的最新进展，加入了 CNN-BLSTM 声学模型和基于字符和对话会话感知的 LSTM 语言模型进行重构，采用两阶段方法进行系统合并，并在合并后通过混淆网络进行单词级投票。该系统在 Switchboard speech recognition 数据集上的评测结果显示，词错误率为 5.1％。

Aug, 2017

实现人类水平的对话语音识别

本篇论文测试了 Convolutional 和 LSTM acoustic model architectures 在对话语音识别上的效果，并采用 novel spatial smoothing method 和 lattice-free MMI acoustic training 方法，还有 multiple recurrent neural network language modeling approaches 以及 system combination 等方法，实现了与人类专业转录员相媲美的识别准确率。

Oct, 2016

IBM 2015 年英语电话会话语音识别系统

介绍了 IBM 英语电话会话语音识别系统方面的最新进展，使用 maxout 网络、大量输出的网络、部分展开的循环神经网络与卷积网络的联合建模，以及复杂的语言模型重新评分等技术，使得词误率达到了 8.0％，相对之前发表的最佳结果提高了 23％。

May, 2015

人机英语会话电话语音识别

在研究中，作者使用多种声学建模、语言建模技术将 LVCSR 系统评价指标降至 5.5％/10.3％，但验证后发现其仍低于人类表现水平，探讨了人类表现水平的定义及如何进一步降低语音识别误差率等问题。

Mar, 2017

基于单头注意力的序列到序列模型，在 Switchboard 上实现最先进的结果

本文表明，使用单个头注意力，基于 LSTM 的直接 seq2seq 语音识别模型可以在只有少量数据时（即使只有 300 小时数据），在 Switchboard-300 数据库上实现最先进的识别性能，并且数据增强和谨慎的正则化对于获得这种水平的性能非常重要，然而，更多的数据仍然是更有用的，并且通过使用各种正则化技术和一个相对简单但足够大的模型的组合可以在 Switchboard 和 CallHome 数据集上取得 4.7％和 7.8％的 WER 结果。

Jan, 2020

英语会话语音识别的极限探讨

本论文通过改进优化器、使用说话者向量嵌入和替代的语音表示，以及采用概率比率方法补偿解码模型，成功降低了 LSTM 系统在 Switchboard-300 上相对识别误差 4%，并在 Hub5'00 的 SWB 和 CHM 部分报告了 5.9% 和 11.5% 的字误率，并在 Switchboard-300 上实现了新的最佳结果，同时探讨了 conformer 和更先进的自注意力语言模型及其对现有性能的贡献。

May, 2021

移动设备上的个性化语音识别

本文介绍了一种大词汇量语音识别系统，其特点是准确、延迟低，同时其内存和计算资源占用不大，可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标，进一步使用基于 SVD 的压缩方案进一步减小内存占用，同时利用贝叶斯插值构建单一的语言模型，在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率，而以运行速度优于实时的为媒介获得更优秀的结果。

Mar, 2016

深度言语：扩大端到端语音识别

使用端到端深度学习开发的演讲识别系统：不需要手工设计组件来模拟背景噪声、混响或者发言人差异，取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法，其关键是优化的 RNN 训练系统以及一组新的数据综合技术，该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率，优于以前的成果，并且与广泛使用的最先进的商业演讲系统相比，Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。

Dec, 2014