超越莱文斯坦：利用多种算法实现稳健的字错误率计算和细化错误分类

Aug, 2024

超越莱文斯坦：利用多种算法实现稳健的字错误率计算和细化错误分类

Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications

HTML

PDF

Korbinian Kuhn, Verena Kersken, Gottfried Zimmermann

TL;DR本文解决了自动语音识别中传统字错误率（WER）计算的局限性，特别是在标点和大小写等非语义差异方面的信息丢失。通过采用扩展的莱文斯坦距离算法，我们提出了一种非破坏性的基于令牌的方法，能够计算更加稳健的WER和其他正字法指标，并利用字符串相似性和语音算法对转录错误进行更细致的分类。研究表明，我们的方法在多个数据集上的效果与常用的WER计算方式相当，并提供了基于此的用例分析及互动可视化的网络应用。

Abstract

The Word Error Rate (WER) is the common measure of accuracy for Automatic Speech Recognition (ASR). Transcripts are usually pre-processed by substituting specific characters to account for non-semantic difference

发现论文，激发创造

基于音标的语音识别错误对齐方法，用于语音翻译错误分析

我们提出了一种名为POWER的新的指标来评估语音识别错误率，该指标考虑到了音素的对齐。POWER指标可捕捉语音识别假设中的同音字错误的一对多词对齐，同时提供更好的单词对齐，将更好地追踪Levenshtein错误类型及对语音转换等后续任务的影响。

Apr, 2019

我们是谁，以及我们认为自己是谁 - 评估自我知觉的准确性

本文质疑了现代自动语音识别系统在基准数据集上达到极低词错误率的报告，同时比较了三种最先进的商用自动语音识别系统在现实生活中的人类对话和公共基准测试中的表现，并得出结论：WERs显著高于最佳报告结果。我们制定了一组准则，可帮助创建高质量注释的现实生活中多领域数据集，以训练和测试强大的ASR系统。

Oct, 2020

WER-BERT：基于BERT的自动词错误率估计在均衡序数分类范式中的应用

研究了在分类设置中进行自动Word Error Rate 测量的平衡方法以及提出了一种基于 BERT 模型的 WER(BERT) 结构，同时介绍了一种距离损失函数来处理 e-WER 分类的序数性质，并在 Librispeech 数据集和 Google Cloud 的语音转文本 API 上进行了评估，结果表明 WER-BERT 在自动 WER 估计方面取得了最新的研究成果。

Jan, 2021

在Switchboard基准测试上朝向零Oracle词错误率

该研究探讨了在自动语音识别（ASR）研究中备受关注的‘Switchboard benchmark’数据集的一些实用考虑，并提出了修正参考转录和改变评分方法的更详细和可重复的方案。通过这种方案，甚至商业ASR系统的WER得分也可以低于5％，研究系统的表现记录下降至2.3％。此外，还探索了使用标准化评分工具计算oracle WER的方法，并比较了短语备选项表示和utterance/word-level的结构。最终，使用密集网络和添加字典外单词的方法实现了0.18％的oracle WER。

Jun, 2022

使用BERTScore评估ASR模型在失语言上的质量

该研究调查了使用BERTScore作为语音识别模型质量评估的度量标准。BERTScore与WER相比，在计算错误类型和评估方面更符合人工评定的标准。因此，BERTScore可以在实际应用中辅助WER，特别是在无障碍应用中，即使模型的精度比典型语音的精度低，模型仍然是有用的。

Sep, 2022

无监督的跨语言语音识别误率标准化

提出了一种基于拼写和分词的自动化WER规范系统，通过在四种语言上的实验，平均WER降低了13.28％。同时，基于该系统的标注数据的人工实验结果表明，该文中所提出的WER规范方法与ASR输出的感知质量高度一致。

Mar, 2023

LibriSpeech-PC: 评估端到端自动语音识别模型标点和大小写能力的基准测试

传统自动语音识别模型将输出转换为小写无标点符号的单词，从而降低了可读性，需要进一步的文本处理模型来将语音识别转录成正确的格式。本文介绍了一个名为LibriSpeech-PC的基准测试，用于评估端到端自动语音识别模型在标点和大小写预测方面的能力，同时提出了一种名为PER的新型评估指标，专注于标点符号，并提供了初步的基准模型。所有代码、数据和模型均可公开获取。

Oct, 2023

使用自监督表示快速估计语音和文本的错误率

通过自监督学习表征方法，引入了一种快速的语音识别错误率估计器（Fe-WER）。实验结果在Ted-Lium3数据集上以均方根误差和皮尔逊相关系数两个评估指标相对于e-WER3基线分别提高了19.69%和7.16%，而通过时长加权的估计结果与目标值的差异为10.43%和10.88%。此外，该估计器的推理速度相当于实时因子的4倍。

Oct, 2023

自动语音识别系统无关词错误率评估

提出了一种用于ASR系统独立的WER估计的假设生成方法，通过使用语音相似或语言上更可能的替代词产生假设，并在域内数据上达到了与ASR系统相关的WER估计器相似的性能，在域外数据上实现了最先进的性能。

Apr, 2024

我们立足何处：乌尔都语自动语音识别模型基准评估

本研究解决了乌尔都语自动语音识别（ASR）模型性能评估的不足，提出了一种综合评估方法。研究发现，seamless-large模型在朗读语音数据集上的表现优于其他模型，而whisper-large则在会话语音数据集上表现最佳，强调了在低资源语言中开发强大的ASR系统的重要性。

Sep, 2024