我们是谁，以及我们认为自己是谁 - 评估自我知觉的准确性

EMNLPOct, 2020

我们是谁，以及我们认为自己是谁 - 评估自我知觉的准确性

WER we are and WER we think we are

Piotr Szymański, Piotr Żelasko, Mikolaj Morzy, Adrian Szymczak, Marzena Żyła-Hoppe...

TL;DR本文质疑了现代自动语音识别系统在基准数据集上达到极低词错误率的报告，同时比较了三种最先进的商用自动语音识别系统在现实生活中的人类对话和公共基准测试中的表现，并得出结论：WERs 显著高于最佳报告结果。我们制定了一组准则，可帮助创建高质量注释的现实生活中多领域数据集，以训练和测试强大的 ASR 系统。

Abstract

natural language processing of conversational speech requires the availability of high-quality transcripts. In this paper, we express our skepticism towards the recent reports of very low word error rates (WERs)

natural language processing automatic speech recognition word error rates benchmark dataset

发现论文，激发创造

Earnings-22：野外口音实践基准

本文介绍了一个收集英语盈利电话会议的语料库，旨在为评估现代自动语音识别系统的实际表现提供一个免费的现实世界参考标准，通过 4 个商业模型的比较，研究了地区口音对模型表现的影响，以及研究了 ASR 系统普遍出现的误差和关键语音特征对模型表现的影响。

Mar, 2022

自动语音识别系统无关词错误率评估

提出了一种用于 ASR 系统独立的 WER 估计的假设生成方法，通过使用语音相似或语言上更可能的替代词产生假设，并在域内数据上达到了与 ASR 系统相关的 WER 估计器相似的性能，在域外数据上实现了最先进的性能。

Apr, 2024

基于 ASR 转录的语音情感识别：关于词误率和融合技术的全面研究

使用不同词错误率（WERs）的 ASR 转录对 IEMOCAP，CMU-MOSI 和 MSP-Podcast 等已知语料库进行 SER 性能评估，同时提出了一个统一的 ASR 错误抗干扰框架，并与最佳表现的 ASR 转录进行比较，实现了更低的 WER 和更高的 SER 结果，为 SER 与 ASR 协助的研究提供了洞见。

Jun, 2024

无监督的跨语言语音识别误率标准化

提出了一种基于拼写和分词的自动化 WER 规范系统，通过在四种语言上的实验，平均 WER 降低了 13.28％。同时，基于该系统的标注数据的人工实验结果表明，该文中所提出的 WER 规范方法与 ASR 输出的感知质量高度一致。

Mar, 2023

WER-BERT：基于 BERT 的自动词错误率估计在均衡序数分类范式中的应用

研究了在分类设置中进行自动 Word Error Rate 测量的平衡方法以及提出了一种基于 BERT 模型的 WER (BERT) 结构，同时介绍了一种距离损失函数来处理 e-WER 分类的序数性质，并在 Librispeech 数据集和 Google Cloud 的语音转文本 API 上进行了评估，结果表明 WER-BERT 在自动 WER 估计方面取得了最新的研究成果。

Jan, 2021

在 Switchboard 基准测试上朝向零 Oracle 词错误率

该研究探讨了在自动语音识别（ASR）研究中备受关注的‘Switchboard benchmark’数据集的一些实用考虑，并提出了修正参考转录和改变评分方法的更详细和可重复的方案。通过这种方案，甚至商业 ASR 系统的 WER 得分也可以低于 5％，研究系统的表现记录下降至 2.3％。此外，还探索了使用标准化评分工具计算 oracle WER 的方法，并比较了短语备选项表示和 utterance/word-level 的结构。最终，使用密集网络和添加字典外单词的方法实现了 0.18％的 oracle WER。

Jun, 2022

使用自监督表示快速估计语音和文本的错误率

通过自监督学习表征方法，引入了一种快速的语音识别错误率估计器（Fe-WER）。实验结果在 Ted-Lium3 数据集上以均方根误差和皮尔逊相关系数两个评估指标相对于 e-WER3 基线分别提高了 19.69% 和 7.16%，而通过时长加权的估计结果与目标值的差异为 10.43% 和 10.88%。此外，该估计器的推理速度相当于实时因子的 4 倍。

Oct, 2023

探究自动语音识别系统对 L2 英语语音变异的敏感性

使用一种探测方法，发现了 ASR 系统处理在 L2 英语方言中的发音差异时，出现了声素级别的错误并产生了更高的 WER。这项工作系统地说明了 ASR 的行为，通过确定特定问题的物质来源来提高 ASR 的准确性。

May, 2023

多语言词错误率评估：e-WER3

提出了一种新颖的多语言语音识别框架 ——eWER3，通过联合训练声学和词汇表示来估计词错误率，该模型推动了邻近语言的表现，并在估计单词错误率的方法上优于以往的单语言方法（eWER2）。

Apr, 2023

使用 BERTScore 评估 ASR 模型在失语言上的质量

该研究调查了使用 BERTScore 作为语音识别模型质量评估的度量标准。BERTScore 与 WER 相比，在计算错误类型和评估方面更符合人工评定的标准。因此，BERTScore 可以在实际应用中辅助 WER，特别是在无障碍应用中，即使模型的精度比典型语音的精度低，模型仍然是有用的。

Sep, 2022