Earnings-22：野外口音实践基准

Mar, 2022

Earnings-22: A Practical Benchmark for Accents in the Wild

Miguel Del Rio, Peter Ha, Quinten McNamara, Corey Miller, Shipra Chandra

TL;DR本文介绍了一个收集英语盈利电话会议的语料库，旨在为评估现代自动语音识别系统的实际表现提供一个免费的现实世界参考标准，通过 4 个商业模型的比较，研究了地区口音对模型表现的影响，以及研究了 ASR 系统普遍出现的误差和关键语音特征对模型表现的影响。

Abstract

Modern automatic speech recognition (ASR) systems have achieved superhuman Word Error Rate (WER) on many common corpora despite lacking adequate performance on speech in the wild. Beyond that, there is a lack of real-world, →

automatic speech recognition real-world speech benchmarking accented corpora model performance

发现论文，激发创造

Earnings-21: 野外 ASR 的实用基准

本文提出了一个 39 小时的包含来自不同金融领域的密集实体语音的 Earnings-21 语料库，用于 ASR 系统的基准测试，并针对命名实体识别进行特殊关注。通过我们最近发布的 fstalign 工具，提供了每个模型在不同划分下的识别能力的坦率分析。分析发现，某些 NER 类别的 ASR 准确率很低，存在着显著的文本理解和使用障碍。Earnings-21 能够评估学术和商业 ASR 系统，使得实体塑造和 WER 在真实世界音频上的进一步研究成为可能。

Apr, 2021

我们是谁，以及我们认为自己是谁 - 评估自我知觉的准确性

本文质疑了现代自动语音识别系统在基准数据集上达到极低词错误率的报告，同时比较了三种最先进的商用自动语音识别系统在现实生活中的人类对话和公共基准测试中的表现，并得出结论：WERs 显著高于最佳报告结果。我们制定了一组准则，可帮助创建高质量注释的现实生活中多领域数据集，以训练和测试强大的 ASR 系统。

Oct, 2020

自动语音识别系统无关词错误率评估

提出了一种用于 ASR 系统独立的 WER 估计的假设生成方法，通过使用语音相似或语言上更可能的替代词产生假设，并在域内数据上达到了与 ASR 系统相关的 WER 估计器相似的性能，在域外数据上实现了最先进的性能。

Apr, 2024

英语口音的爱丁堡国际语料库：迈向英语 ASR 的民主化

该论文介绍了一个新的英语语音数据集 Edinburgh International Accents of English Corpus (EdAcc)，用于更好地代表各种英语语音的多样性，经使用 680,000 小时的转录数据进行训练后，最好的模型在印度、牙买加和奈及利亚等地的表现都有所下降，平均词错误率为 19.7％。

Mar, 2023

使用 BERTScore 评估 ASR 模型在失语言上的质量

该研究调查了使用 BERTScore 作为语音识别模型质量评估的度量标准。BERTScore 与 WER 相比，在计算错误类型和评估方面更符合人工评定的标准。因此，BERTScore 可以在实际应用中辅助 WER，特别是在无障碍应用中，即使模型的精度比典型语音的精度低，模型仍然是有用的。

Sep, 2022

探究自动语音识别系统对 L2 英语语音变异的敏感性

使用一种探测方法，发现了 ASR 系统处理在 L2 英语方言中的发音差异时，出现了声素级别的错误并产生了更高的 WER。这项工作系统地说明了 ASR 的行为，通过确定特定问题的物质来源来提高 ASR 的准确性。

May, 2023

德语语音识别：详细误差分析

研究使用神经网络的自动语音识别系统，如何评估其预测的转录与语音输入的误差类别，评估结果指出交叉体系结构的预测错误，并查找错误来源，提出定量改善数据集和提高 ASR 系统鲁棒性的解决方案。

Apr, 2022

多语言词错误率评估：e-WER3

提出了一种新颖的多语言语音识别框架 ——eWER3，通过联合训练声学和词汇表示来估计词错误率，该模型推动了邻近语言的表现，并在估计单词错误率的方法上优于以往的单语言方法（eWER2）。

Apr, 2023

基于 ASR 转录的语音情感识别：关于词误率和融合技术的全面研究

使用不同词错误率（WERs）的 ASR 转录对 IEMOCAP，CMU-MOSI 和 MSP-Podcast 等已知语料库进行 SER 性能评估，同时提出了一个统一的 ASR 错误抗干扰框架，并与最佳表现的 ASR 转录进行比较，实现了更低的 WER 和更高的 SER 结果，为 SER 与 ASR 协助的研究提供了洞见。

Jun, 2024

在 Switchboard 基准测试上朝向零 Oracle 词错误率

该研究探讨了在自动语音识别（ASR）研究中备受关注的‘Switchboard benchmark’数据集的一些实用考虑，并提出了修正参考转录和改变评分方法的更详细和可重复的方案。通过这种方案，甚至商业 ASR 系统的 WER 得分也可以低于 5％，研究系统的表现记录下降至 2.3％。此外，还探索了使用标准化评分工具计算 oracle WER 的方法，并比较了短语备选项表示和 utterance/word-level 的结构。最终，使用密集网络和添加字典外单词的方法实现了 0.18％的 oracle WER。

Jun, 2022