基于注意力机制的序列到序列模型最小词错率训练

Dec, 2017

基于注意力机制的序列到序列模型最小词错率训练

Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models

Rohit Prabhavalkar, Tara N. Sainath, Yonghui Wu, Patrick Nguyen, Zhifeng Chen...

TL;DR本文研究了训练注意力机制的序列到序列模型来直接最小化期望的单词错误率，通过实验证明通过 N-best 列表的解码假设比基于模型的采样方法效果更好，相对于基准系统性能提高了 8.2%。

Abstract

sequence-to-sequence models, such as attention-based models in automatic speech recognition (ASR), are typically trained to optimize the cross-entropy criterion which corresponds to improving the log-likelihood o

sequence-to-sequence models attention-based models automatic speech recognition word error rate loss functions

发现论文，激发创造

通过采样优化语音识别的期望单词误差率

本文介绍了一种对语音识别声学模型进行最优化训练的方法，使用 Monte Carlo 抽样从传统 sMBR 训练的 lattice 中采样路径来优化期望 WER，并在 Google Home 的 2 通道查询识别任务上实验，并相对于经过良好调整的 sMBR 基线获得了 5％的相对 WER 改进。

Jun, 2017

自我批评序列训练用于自动语音识别

本文提出了一种基于损失函数和词错误率的奖励函数的增强学习方法 —— 自我关键序列训练 (SCST) 来解决自动语音识别中的若干问题，取得了 8.7% 和 7.8% 的词错误率相对改进。

Apr, 2022

针对语音识别的端到端注意力模型的改进训练

研究了基于子词单元的序列到序列的注意力机制模型在简单开放式语料库上进行的端到端语音识别中的应用，通过预置一个高时间缩小系数并在训练过程中逐步降低，以及使用辅助 CTC 损失函数等方法，证明了它的有效性和高性能。同时，还对基于子词单元的 LSTM 语言模型进行了训练，在无语言模型情况下，在给定的评估数据子集上相较于注意力基线的 WER 提高了 27%。

May, 2018

使用序列到序列模型进行自动语音识别的误差校正

该研究使用预训练序列到序列模型 BART，并对其进行自适应训练来对自动语音识别中的发音和拼写错误进行纠正，并采用词级对齐的简单方法重新评分。实验结果表明，该策略在口音语音数据上有效地矫正了大量 ASR 错误，并在与基准系统的比较中产生了改进的 WER 结果。然而，在印地语语法错误纠正任务中，该模型捕捉更广泛上下文的能力受到限制。

Feb, 2022

使用 BERTScore 评估 ASR 模型在失语言上的质量

该研究调查了使用 BERTScore 作为语音识别模型质量评估的度量标准。BERTScore 与 WER 相比，在计算错误类型和评估方面更符合人工评定的标准。因此，BERTScore 可以在实际应用中辅助 WER，特别是在无障碍应用中，即使模型的精度比典型语音的精度低，模型仍然是有用的。

Sep, 2022

使用自监督表示快速估计语音和文本的错误率

通过自监督学习表征方法，引入了一种快速的语音识别错误率估计器（Fe-WER）。实验结果在 Ted-Lium3 数据集上以均方根误差和皮尔逊相关系数两个评估指标相对于 e-WER3 基线分别提高了 19.69% 和 7.16%，而通过时长加权的估计结果与目标值的差异为 10.43% 和 10.88%。此外，该估计器的推理速度相当于实时因子的 4 倍。

Oct, 2023

自动语音识别系统无关词错误率评估

提出了一种用于 ASR 系统独立的 WER 估计的假设生成方法，通过使用语音相似或语言上更可能的替代词产生假设，并在域内数据上达到了与 ASR 系统相关的 WER 估计器相似的性能，在域外数据上实现了最先进的性能。

Apr, 2024

序列转序列模型中更好的解码和语言模型集成

该研究分析了一个基于注意力机制的序列到序列语音识别系统，提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案，并在没有语言模型的情况下，其词错误率为 10.6％，与 trigram 语言模型一起达到了 6.7％的词错误率。

Dec, 2016

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017

WER-BERT：基于 BERT 的自动词错误率估计在均衡序数分类范式中的应用

研究了在分类设置中进行自动 Word Error Rate 测量的平衡方法以及提出了一种基于 BERT 模型的 WER (BERT) 结构，同时介绍了一种距离损失函数来处理 e-WER 分类的序数性质，并在 Librispeech 数据集和 Google Cloud 的语音转文本 API 上进行了评估，结果表明 WER-BERT 在自动 WER 估计方面取得了最新的研究成果。

Jan, 2021