规范化中遗失了什么？探索多语言自动语音识别模型评估中的陷阱

Sep, 2024

规范化中遗失了什么？探索多语言自动语音识别模型评估中的陷阱

What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations

Kavya Manohar, Leena G Pillai

TL;DR本文针对多语言自动语音识别（ASR）模型评估中的问题，尤其是印地语脚本，进行了深入研究。研究发现目前的文本规范化方法在评估印地语时存在根本性缺陷，导致性能指标被人为抬高，提出了利用本土语言专业知识发展的新规范化方案，以确保多语言ASR模型的评估更加准确和可靠。

Abstract

This paper explores the pitfalls in evaluating multilingual automatic speech recognition (ASR) models, with a particular focus on Indic language scripts. We investigate the Text Normalization routine employed by leading ASR models, including OpenAI Whisper, Meta's MMS, Seamless, and As

发现论文，激发创造

低资源语音识别预训练的分析

本文探讨了如何提高低资源语言的自动语音翻译质量，研究表明在高资源语言上训练端到端自动语音识别模型可以有效提高自动语音译文质量，作者发现最终自动语音译文质量的最佳预测因素是预训练的ASR模型的词错误率，并且研究发现预训练和数据增强对AST翻译质量的提高是互补的。

Oct, 2019

大规模多语言自动语音识别：50种语言，1个模型，10亿参数

本文探讨了利用单一声学模型进行多种语言训练，以提高低资源语言的自动语音识别性能，并简化支持多种语言的ASR系统的部署。作者在51种语言上进行广泛的基准测试和比较，表明与单语言训练相比，多语言训练的ASR模型可以提高识别性能，特别是对于低资源语言。与单语言基线相比，联合模型、具有语言输入的联合模型和多头模型的平均WER相对减少20.9％、23％和28.8％。据我们所知，这是第一次研究超过50种语言和超过16,000小时声音跨其的多语言ASR的大规模研究。

Jul, 2020

词错误率是否适用于评估印度语言语音识别的表现？

提出了适用于半字符语言的新的语音识别误差率计算方法，通过实现在印地语中表明其在包含大字符集的语言中可扩展性，并开源了包含新度量脚本的印地语基准数据集，为提高语音识别系统表现提供了新的可能性。

Mar, 2022

70种语言的大规模多语音识别：分词、架构、泛化能力

本文研究了70种语言的大规模多语种ASR模型，并通过优化多重嵌入和输出模型的标记化策略，相对于单一语种模型，实现了13.9%-15.6%的平均WER改进，并展示了其泛化性和零样本学习能力在Multilingual Librispeech 上高达9.5%的WER表现。

Nov, 2022

无监督的跨语言语音识别误率标准化

提出了一种基于拼写和分词的自动化WER规范系统，通过在四种语言上的实验，平均WER降低了13.28％。同时，基于该系统的标注数据的人工实验结果表明，该文中所提出的WER规范方法与ASR输出的感知质量高度一致。

Mar, 2023

关于日语语音识别的宽松评估：建模自然发生的拼写不一致性

本研究提出了一种新的宽松的评价模型作为日语自动语音识别的更具潜力的 CER 测量，通过利用词汇量，文本处理计算机系统以及神经机器翻译模型对参考转录文本进行了合理重写。

Jun, 2023

LibriSpeech-PC: 评估端到端自动语音识别模型标点和大小写能力的基准测试

传统自动语音识别模型将输出转换为小写无标点符号的单词，从而降低了可读性，需要进一步的文本处理模型来将语音识别转录成正确的格式。本文介绍了一个名为LibriSpeech-PC的基准测试，用于评估端到端自动语音识别模型在标点和大小写预测方面的能力，同时提出了一种名为PER的新型评估指标，专注于标点符号，并提供了初步的基准模型。所有代码、数据和模型均可公开获取。

Oct, 2023

基于注意机制的无参考度量进行语音识别质量评估，实现高效语料采样和后期编辑

在自动语音识别（ASR）领域，本文介绍和评估了质量估计（QE）指标作为提高ASR系统中可解释人工智能（XAI）的一种新工具。通过实验和分析，探索了NoRefER（无参考错误率）指标在识别单词级别错误方面的能力，以帮助后期编辑 ASR 假设的改进。研究还扩展到了NoRefER在构建数据集过程中的实用性，展示了它在增加具有深入注释的数据集方面的有效性。对NoRefER的诊断方面进行了检查，揭示了它提供有关模型行为和决策模式的有价值的见解的能力。这对于优先处理后期编辑工作流程和微调ASR模型非常有益。研究结果表明NoRefER不仅仅是一个错误检测工具，还是提高ASR系统透明性、效率和效果的全面框架。为了保证结果的可复现性，本研究的所有源代码都公开可用。

Jan, 2024

我们立足何处：乌尔都语自动语音识别模型基准评估

本研究解决了乌尔都语自动语音识别（ASR）模型性能评估的不足，提出了一种综合评估方法。研究发现，seamless-large模型在朗读语音数据集上的表现优于其他模型，而whisper-large则在会话语音数据集上表现最佳，强调了在低资源语言中开发强大的ASR系统的重要性。

Sep, 2024

自动语音识别基准测试：对更具代表性的对话数据集的需求

本研究解决了现有自动语音识别（ASR）基准未能反映现实对话环境复杂性的问题，提出了一个来自TalkBank的多语言对话数据集。研究发现，主流ASR模型在此对话环境下性能显著下降，并揭示了语音不流畅性与词错误率之间的相关性，突显了建立更真实对话基准的必要性。

Sep, 2024