针对语音识别的端到端注意力模型的改进训练

May, 2018

针对语音识别的端到端注意力模型的改进训练

Improved training of end-to-end attention models for speech recognition

Albert Zeyer, Kazuki Irie, Ralf Schlüter, Hermann Ney

TL;DR研究了基于子词单元的序列到序列的注意力机制模型在简单开放式语料库上进行的端到端语音识别中的应用，通过预置一个高时间缩小系数并在训练过程中逐步降低，以及使用辅助 CTC 损失函数等方法，证明了它的有效性和高性能。同时，还对基于子词单元的 LSTM 语言模型进行了训练，在无语言模型情况下，在给定的评估数据子集上相较于注意力基线的 WER 提高了 27%。

Abstract

sequence-to-sequence attention-based models on subword units allow simple open-vocabulary end-to-end speech recognition. In this work, we

sequence-to-sequence attention-based models end-to-end speech recognition pretraining scheme lstm language models

发现论文，激发创造

基于单头注意力的序列到序列模型，在 Switchboard 上实现最先进的结果

本文表明，使用单个头注意力，基于 LSTM 的直接 seq2seq 语音识别模型可以在只有少量数据时（即使只有 300 小时数据），在 Switchboard-300 数据库上实现最先进的识别性能，并且数据增强和谨慎的正则化对于获得这种水平的性能非常重要，然而，更多的数据仍然是更有用的，并且通过使用各种正则化技术和一个相对简单但足够大的模型的组合可以在 Switchboard 和 CallHome 数据集上取得 4.7％和 7.8％的 WER 结果。

Jan, 2020

英语会话语音识别的极限探讨

本论文通过改进优化器、使用说话者向量嵌入和替代的语音表示，以及采用概率比率方法补偿解码模型，成功降低了 LSTM 系统在 Switchboard-300 上相对识别误差 4%，并在 Hub5'00 的 SWB 和 CHM 部分报告了 5.9% 和 11.5% 的字误率，并在 Switchboard-300 上实现了新的最佳结果，同时探讨了 conformer 和更先进的自注意力语言模型及其对现有性能的贡献。

May, 2021

层级条件端到端 ASR：CTC 和多粒度次词单元

本文提出了一种基于连接主义时间分类（CTC）的分层条件模型，通过在中间层应用辅助 CTC 损失，逐渐增加每个目标子单词序列的词汇量，并使每个级别的序列预测明确地以前一个级别的预测为条件，希望通过利用语言结构的层次结构有效地学习单词级表示，在 LibriSpeech-{100h，960h} 和 TEDLIUM2 上实验结果表明，与标准 CTC 模型和其他竞争模型相比，所提出的模型具有优越性能。

Oct, 2021

神经语音识别：基于声学到词汇 LSTM 模型的大词汇量语音识别

使用 CTC 损失和双向 LSTM RNN 网络，基于整词的声学单位构建连续语音识别系统，无需传统上下文依赖的子词单元和语言模型。

Oct, 2016

基于注意力机制的序列到序列模型最小词错率训练

本文研究了训练注意力机制的序列到序列模型来直接最小化期望的单词错误率，通过实验证明通过 N-best 列表的解码假设比基于模型的采样方法效果更好，相对于基准系统性能提高了 8.2%。

Dec, 2017

序列转序列模型中更好的解码和语言模型集成

该研究分析了一个基于注意力机制的序列到序列语音识别系统，提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案，并在没有语言模型的情况下，其词错误率为 10.6％，与 trigram 语言模型一起达到了 6.7％的词错误率。

Dec, 2016

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017

一种用于端到端语音识别的拼写校正模型

该研究提出了一种新方法以训练拼写纠错模型来纠正注意力机制序列到序列语音识别模型中的错误，从而改进了性能。在 LibriSpeech 数据集上，该模型相对于基线模型的相对改进为 18.6％，相对于使用扩展语言模型重新评分的 n-best 列表的改进为 29.0％。

Feb, 2019

非常深的自注意力网络用于端到端语音识别

本研究采用 Transformer 结构，构建端到端的序列到序列模型，其表现超过了之前的端到端模型和传统混合系统，并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。

Apr, 2019

用单个 Transformer 实现多语言低资源语音端到端识别

本文利用单个 transformer 模型及语言符号，针对低资源语言进行多语言语音识别，相较于 SHL-MLSTM 具有较高的识别精度。

Jun, 2018