多语言词错误率评估：e-WER3

Apr, 2023

Multilingual Word Error Rate Estimation: e-WER3

Shammur Absar Chowdhury, Ahmed Ali

TL;DR提出了一种新颖的多语言语音识别框架 ——eWER3，通过联合训练声学和词汇表示来估计词错误率，该模型推动了邻近语言的表现，并在估计单词错误率的方法上优于以往的单语言方法（eWER2）。

Abstract

The success of the multilingual automatic speech recognition systems empowered many voice-driven applications. However, measuring the performance of such systems remains a major challenge, due to its dependency on manually transcribed speech data in both mono- and multilingual scenario

multilingual automatic speech recognition ewer3 framework word error rate estimation acoustic and lexical representation multilingual shared latent space

发现论文，激发创造

自动语音识别系统无关词错误率评估

提出了一种用于 ASR 系统独立的 WER 估计的假设生成方法，通过使用语音相似或语言上更可能的替代词产生假设，并在域内数据上达到了与 ASR 系统相关的 WER 估计器相似的性能，在域外数据上实现了最先进的性能。

Apr, 2024

使用自监督表示快速估计语音和文本的错误率

通过自监督学习表征方法，引入了一种快速的语音识别错误率估计器（Fe-WER）。实验结果在 Ted-Lium3 数据集上以均方根误差和皮尔逊相关系数两个评估指标相对于 e-WER3 基线分别提高了 19.69% 和 7.16%，而通过时长加权的估计结果与目标值的差异为 10.43% 和 10.88%。此外，该估计器的推理速度相当于实时因子的 4 倍。

Oct, 2023

无监督的跨语言语音识别误率标准化

提出了一种基于拼写和分词的自动化 WER 规范系统，通过在四种语言上的实验，平均 WER 降低了 13.28％。同时，基于该系统的标注数据的人工实验结果表明，该文中所提出的 WER 规范方法与 ASR 输出的感知质量高度一致。

Mar, 2023

WER-BERT：基于 BERT 的自动词错误率估计在均衡序数分类范式中的应用

研究了在分类设置中进行自动 Word Error Rate 测量的平衡方法以及提出了一种基于 BERT 模型的 WER (BERT) 结构，同时介绍了一种距离损失函数来处理 e-WER 分类的序数性质，并在 Librispeech 数据集和 Google Cloud 的语音转文本 API 上进行了评估，结果表明 WER-BERT 在自动 WER 估计方面取得了最新的研究成果。

Jan, 2021

我们是谁，以及我们认为自己是谁 - 评估自我知觉的准确性

本文质疑了现代自动语音识别系统在基准数据集上达到极低词错误率的报告，同时比较了三种最先进的商用自动语音识别系统在现实生活中的人类对话和公共基准测试中的表现，并得出结论：WERs 显著高于最佳报告结果。我们制定了一组准则，可帮助创建高质量注释的现实生活中多领域数据集，以训练和测试强大的 ASR 系统。

Oct, 2020

基于流式端到端模型的大规模多语言语音识别

本文介绍了一种使用条件向量和针对语言的适配器层结合的多语言端到端模型，取得了比单语言模型和传统模型都更低的语音识别误差率。

Sep, 2019

词错误率是否适用于评估印度语言语音识别的表现？

提出了适用于半字符语言的新的语音识别误差率计算方法，通过实现在印地语中表明其在包含大字符集的语言中可扩展性，并开源了包含新度量脚本的印地语基准数据集，为提高语音识别系统表现提供了新的可能性。

Mar, 2022

Earnings-22：野外口音实践基准

本文介绍了一个收集英语盈利电话会议的语料库，旨在为评估现代自动语音识别系统的实际表现提供一个免费的现实世界参考标准，通过 4 个商业模型的比较，研究了地区口音对模型表现的影响，以及研究了 ASR 系统普遍出现的误差和关键语音特征对模型表现的影响。

Mar, 2022

基于音标的语音识别错误对齐方法，用于语音翻译错误分析

我们提出了一种名为 POWER 的新的指标来评估语音识别错误率，该指标考虑到了音素的对齐。POWER 指标可捕捉语音识别假设中的同音字错误的一对多词对齐，同时提供更好的单词对齐，将更好地追踪 Levenshtein 错误类型及对语音转换等后续任务的影响。

Apr, 2019

使用 BERTScore 评估 ASR 模型在失语言上的质量

该研究调查了使用 BERTScore 作为语音识别模型质量评估的度量标准。BERTScore 与 WER 相比，在计算错误类型和评估方面更符合人工评定的标准。因此，BERTScore 可以在实际应用中辅助 WER，特别是在无障碍应用中，即使模型的精度比典型语音的精度低，模型仍然是有用的。

Sep, 2022