IBM 2015 年英语电话会话语音识别系统

May, 2015

IBM 2015 年英语电话会话语音识别系统

The IBM 2015 English Conversational Telephone Speech Recognition System

George Saon, Hong-Kwang J. Kuo, Steven Rennie, Michael Picheny

TL;DR介绍了 IBM 英语电话会话语音识别系统方面的最新进展，使用 maxout 网络、大量输出的网络、部分展开的循环神经网络与卷积网络的联合建模，以及复杂的语言模型重新评分等技术，使得词误率达到了 8.0％，相对之前发表的最佳结果提高了 23％。

Abstract

We describe the latest improvements to the ibm English conversational telephone speech recognition system. Some of the techniques that were found beneficial are: maxout networks with annealed dropout rates; netwo

ibm speech recognition neural networks language model word error rate

发现论文，激发创造

IBM 2016 英语语音电话对话识别系统

使用声学建模和语言建模等技术，结合三种模型得出了一个新的 LVCSR 系统，结果在 Switchboard 上实现了前所未有的接近于完美的 6.6% 的错误率。

Apr, 2016

Microsoft 2016 会话式语音识别系统

本文介绍 Microsoft 的会话式语音识别系统，其中采用了近期发展的基于神经网络的声学和语言建模技术，结合机器学习集成技术，使用了多种卷积和循环神经网络，通过 i-vector 模型建模和不带晶格的 MMI 训练，在声学建模架构的所有方面都提供了显著的增益率，使用多个前向和后向运行的 RNNLM 进行语言模型重新加权以及基于词后概率的系统组合，提高了 20％. 最佳单一系统使用 ResNet 架构声学模型与 RNNLM 重新加权，可在 NIST 2000 Switchboard 任务上实现 6.9％的词错误率。结合系统的误差率为 6.2％，这是对此基准测试中以前报告的结果的改进。

Sep, 2016

CAPIO 2017 会话式语音识别系统

论文展示了达到了 NIST 2000 Hub5 英语评估集的最先进表现，提出了一种基于密集连接 LSTMs 并激发于图像分类任务的密集连接卷积网络的方法，以及一个声学模型适应方案，并在 CallHome 训练语料库上应用了该方法，并在评估集的 CallHome 部分中平均提高了 6.1％（相对误差率），并且在 Switchboard 部分没有性能损失。

Dec, 2017

微软 2017 年会话式语音识别系统

本文介绍了微软 2017 年的对话语音识别系统，采用了基于神经网络的声学建模和语言建模的最新进展，加入了 CNN-BLSTM 声学模型和基于字符和对话会话感知的 LSTM 语言模型进行重构，采用两阶段方法进行系统合并，并在合并后通过混淆网络进行单词级投票。该系统在 Switchboard speech recognition 数据集上的评测结果显示，词错误率为 5.1％。

Aug, 2017

人机英语会话电话语音识别

在研究中，作者使用多种声学建模、语言建模技术将 LVCSR 系统评价指标降至 5.5％/10.3％，但验证后发现其仍低于人类表现水平，探讨了人类表现水平的定义及如何进一步降低语音识别误差率等问题。

Mar, 2017

实现人类水平的对话语音识别

本篇论文测试了 Convolutional 和 LSTM acoustic model architectures 在对话语音识别上的效果，并采用 novel spatial smoothing method 和 lattice-free MMI acoustic training 方法，还有 multiple recurrent neural network language modeling approaches 以及 system combination 等方法，实现了与人类专业转录员相媲美的识别准确率。

Oct, 2016

深度言语：扩大端到端语音识别

使用端到端深度学习开发的演讲识别系统：不需要手工设计组件来模拟背景噪声、混响或者发言人差异，取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法，其关键是优化的 RNN 训练系统以及一组新的数据综合技术，该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率，优于以前的成果，并且与广泛使用的最先进的商业演讲系统相比，Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。

Dec, 2014

英语会话语音识别的极限探讨

本论文通过改进优化器、使用说话者向量嵌入和替代的语音表示，以及采用概率比率方法补偿解码模型，成功降低了 LSTM 系统在 Switchboard-300 上相对识别误差 4%，并在 Hub5'00 的 SWB 和 CHM 部分报告了 5.9% 和 11.5% 的字误率，并在 Switchboard-300 上实现了新的最佳结果，同时探讨了 conformer 和更先进的自注意力语言模型及其对现有性能的贡献。

May, 2021

基于单头注意力的序列到序列模型，在 Switchboard 上实现最先进的结果

本文表明，使用单个头注意力，基于 LSTM 的直接 seq2seq 语音识别模型可以在只有少量数据时（即使只有 300 小时数据），在 Switchboard-300 数据库上实现最先进的识别性能，并且数据增强和谨慎的正则化对于获得这种水平的性能非常重要，然而，更多的数据仍然是更有用的，并且通过使用各种正则化技术和一个相对简单但足够大的模型的组合可以在 Switchboard 和 CallHome 数据集上取得 4.7％和 7.8％的 WER 结果。

Jan, 2020

全神经语音识别的进展

本文提出了一种基于 CTC 的全神经网络语音识别器的设计方法，包括新的符号存储库、基于迭代的 CTC 方法、稳定化方法和初始化方法等，使用 NIST 2000 会话电话测试集进行了评估，结果表明该系统明显超过了先前发布的相似系统的性能，无需使用外部语言模型和解码技术。

Sep, 2016