使用自监督表示快速估计语音和文本的错误率

Oct, 2023

使用自监督表示快速估计语音和文本的错误率

Fast Word Error Rate Estimation Using Self-Supervised Representations For Speech And Text

Chanho Park, Chengsong Lu, Mingjie Chen, Thomas Hain

TL;DR通过自监督学习表征方法，引入了一种快速的语音识别错误率估计器（Fe-WER）。实验结果在 Ted-Lium3 数据集上以均方根误差和皮尔逊相关系数两个评估指标相对于 e-WER3 基线分别提高了 19.69% 和 7.16%，而通过时长加权的估计结果与目标值的差异为 10.43% 和 10.88%。此外，该估计器的推理速度相当于实时因子的 4 倍。

Abstract

The quality of automatic speech recognition (ASR) is typically measured by word error rate (WER). WER estimation is a task aiming to predict the WER of an →

automatic speech recognition word error rate asr system wer estimator self-supervised learning representation

发现论文，激发创造

自动语音识别系统无关词错误率评估

提出了一种用于 ASR 系统独立的 WER 估计的假设生成方法，通过使用语音相似或语言上更可能的替代词产生假设，并在域内数据上达到了与 ASR 系统相关的 WER 估计器相似的性能，在域外数据上实现了最先进的性能。

Apr, 2024

WER-BERT：基于 BERT 的自动词错误率估计在均衡序数分类范式中的应用

研究了在分类设置中进行自动 Word Error Rate 测量的平衡方法以及提出了一种基于 BERT 模型的 WER (BERT) 结构，同时介绍了一种距离损失函数来处理 e-WER 分类的序数性质，并在 Librispeech 数据集和 Google Cloud 的语音转文本 API 上进行了评估，结果表明 WER-BERT 在自动 WER 估计方面取得了最新的研究成果。

Jan, 2021

多语言词错误率评估：e-WER3

提出了一种新颖的多语言语音识别框架 ——eWER3，通过联合训练声学和词汇表示来估计词错误率，该模型推动了邻近语言的表现，并在估计单词错误率的方法上优于以往的单语言方法（eWER2）。

Apr, 2023

使用 BERTScore 评估 ASR 模型在失语言上的质量

该研究调查了使用 BERTScore 作为语音识别模型质量评估的度量标准。BERTScore 与 WER 相比，在计算错误类型和评估方面更符合人工评定的标准。因此，BERTScore 可以在实际应用中辅助 WER，特别是在无障碍应用中，即使模型的精度比典型语音的精度低，模型仍然是有用的。

Sep, 2022

无监督的跨语言语音识别误率标准化

提出了一种基于拼写和分词的自动化 WER 规范系统，通过在四种语言上的实验，平均 WER 降低了 13.28％。同时，基于该系统的标注数据的人工实验结果表明，该文中所提出的 WER 规范方法与 ASR 输出的感知质量高度一致。

Mar, 2023

我们是谁，以及我们认为自己是谁 - 评估自我知觉的准确性

本文质疑了现代自动语音识别系统在基准数据集上达到极低词错误率的报告，同时比较了三种最先进的商用自动语音识别系统在现实生活中的人类对话和公共基准测试中的表现，并得出结论：WERs 显著高于最佳报告结果。我们制定了一组准则，可帮助创建高质量注释的现实生活中多领域数据集，以训练和测试强大的 ASR 系统。

Oct, 2020

基于 ASR 转录的语音情感识别：关于词误率和融合技术的全面研究

使用不同词错误率（WERs）的 ASR 转录对 IEMOCAP，CMU-MOSI 和 MSP-Podcast 等已知语料库进行 SER 性能评估，同时提出了一个统一的 ASR 错误抗干扰框架，并与最佳表现的 ASR 转录进行比较，实现了更低的 WER 和更高的 SER 结果，为 SER 与 ASR 协助的研究提供了洞见。

Jun, 2024

利用语义距离度量评估用户对语音识别系统质量的感知

本研究提出使用使用预训练语言模型提取参考和假设的语义向量之间的距离来衡量 ASR 输出假设的语义正确性，实验结果表明，SemDist 比 WER 更能与用户感知相一致，并且比 WER 更能与下游的自然语言理解任务相一致。

Oct, 2021

大规模自监督语音表征学习用于自动化说话者验证

使用预训练模型学习到的语音表示作为输入特征，采用可学习权重的平均表示方法，在 Voxceleb 数据集上进行了自我监督训练，实现了自动说话人验证，在三个官方测试中分别取得了 0.537％、0.569％和 1.180％的等误差率（EER），超越了 VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC2021) 中的优胜系统。

Oct, 2021

基于注意力机制的序列到序列模型最小词错率训练

本文研究了训练注意力机制的序列到序列模型来直接最小化期望的单词错误率，通过实验证明通过 N-best 列表的解码假设比基于模型的采样方法效果更好，相对于基准系统性能提高了 8.2%。

Dec, 2017