Microsoft 2016 会话式语音识别系统

Sep, 2016

The Microsoft 2016 Conversational Speech Recognition System

W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer...

TL;DR本文介绍 Microsoft 的会话式语音识别系统，其中采用了近期发展的基于神经网络的声学和语言建模技术，结合机器学习集成技术，使用了多种卷积和循环神经网络，通过 i-vector 模型建模和不带晶格的 MMI 训练，在声学建模架构的所有方面都提供了显著的增益率，使用多个前向和后向运行的 RNNLM 进行语言模型重新加权以及基于词后概率的系统组合，提高了 20％. 最佳单一系统使用 ResNet 架构声学模型与 RNNLM 重新加权，可在 NIST 2000 Switchboard 任务上实现 6.9％的词错误率。结合系统的误差率为 6.2％，这是对此基准测试中以前报告的结果的改进。

Abstract

We describe Microsoft's conversational speech recognition system, in which we combine recent developments in neural-network-based acoustic and language modeling to advance the state of the art on the Switchboard recognition task. Inspired by machine learning ensemble techniques, the sy

conversational speech recognition neural-network-based acoustic modeling language model rescoring mmi training rnnlm

发现论文，激发创造

微软 2017 年会话式语音识别系统

本文介绍了微软 2017 年的对话语音识别系统，采用了基于神经网络的声学建模和语言建模的最新进展，加入了 CNN-BLSTM 声学模型和基于字符和对话会话感知的 LSTM 语言模型进行重构，采用两阶段方法进行系统合并，并在合并后通过混淆网络进行单词级投票。该系统在 Switchboard speech recognition 数据集上的评测结果显示，词错误率为 5.1％。

Aug, 2017

IBM 2016 英语语音电话对话识别系统

使用声学建模和语言建模等技术，结合三种模型得出了一个新的 LVCSR 系统，结果在 Switchboard 上实现了前所未有的接近于完美的 6.6% 的错误率。

Apr, 2016

CAPIO 2017 会话式语音识别系统

论文展示了达到了 NIST 2000 Hub5 英语评估集的最先进表现，提出了一种基于密集连接 LSTMs 并激发于图像分类任务的密集连接卷积网络的方法，以及一个声学模型适应方案，并在 CallHome 训练语料库上应用了该方法，并在评估集的 CallHome 部分中平均提高了 6.1％（相对误差率），并且在 Switchboard 部分没有性能损失。

Dec, 2017

IBM 2015 年英语电话会话语音识别系统

介绍了 IBM 英语电话会话语音识别系统方面的最新进展，使用 maxout 网络、大量输出的网络、部分展开的循环神经网络与卷积网络的联合建模，以及复杂的语言模型重新评分等技术，使得词误率达到了 8.0％，相对之前发表的最佳结果提高了 23％。

May, 2015

人机英语会话电话语音识别

在研究中，作者使用多种声学建模、语言建模技术将 LVCSR 系统评价指标降至 5.5％/10.3％，但验证后发现其仍低于人类表现水平，探讨了人类表现水平的定义及如何进一步降低语音识别误差率等问题。

Mar, 2017

实现人类水平的对话语音识别

本篇论文测试了 Convolutional 和 LSTM acoustic model architectures 在对话语音识别上的效果，并采用 novel spatial smoothing method 和 lattice-free MMI acoustic training 方法，还有 multiple recurrent neural network language modeling approaches 以及 system combination 等方法，实现了与人类专业转录员相媲美的识别准确率。

Oct, 2016

基于单头注意力的序列到序列模型，在 Switchboard 上实现最先进的结果

本文表明，使用单个头注意力，基于 LSTM 的直接 seq2seq 语音识别模型可以在只有少量数据时（即使只有 300 小时数据），在 Switchboard-300 数据库上实现最先进的识别性能，并且数据增强和谨慎的正则化对于获得这种水平的性能非常重要，然而，更多的数据仍然是更有用的，并且通过使用各种正则化技术和一个相对简单但足够大的模型的组合可以在 Switchboard 和 CallHome 数据集上取得 4.7％和 7.8％的 WER 结果。

Jan, 2020

英语会话语音识别的极限探讨

本论文通过改进优化器、使用说话者向量嵌入和替代的语音表示，以及采用概率比率方法补偿解码模型，成功降低了 LSTM 系统在 Switchboard-300 上相对识别误差 4%，并在 Hub5'00 的 SWB 和 CHM 部分报告了 5.9% 和 11.5% 的字误率，并在 Switchboard-300 上实现了新的最佳结果，同时探讨了 conformer 和更先进的自注意力语言模型及其对现有性能的贡献。

May, 2021

全卷积语音识别

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017