规范化中遗失了什么?探索多语言自动语音识别模型评估中的陷阱
本文探讨了如何提高低资源语言的自动语音翻译质量,研究表明在高资源语言上训练端到端自动语音识别模型可以有效提高自动语音译文质量,作者发现最终自动语音译文质量的最佳预测因素是预训练的ASR模型的词错误率,并且研究发现预训练和数据增强对AST翻译质量的提高是互补的。
Oct, 2019
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的ASR系统的部署。作者在51种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的ASR模型可以提高识别性能,特别是对于低资源语言。与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均WER相对减少20.9%、23%和28.8%。据我们所知,这是第一次研究超过50种语言和超过16,000小时声音跨其的多语言ASR的大规模研究。
Jul, 2020
提出了适用于半字符语言的新的语音识别误差率计算方法,通过实现在印地语中表明其在包含大字符集的语言中可扩展性,并开源了包含新度量脚本的印地语基准数据集,为提高语音识别系统表现提供了新的可能性。
Mar, 2022
本文研究了70种语言的大规模多语种ASR模型,并通过优化多重嵌入和输出模型的标记化策略,相对于单一语种模型,实现了13.9%-15.6%的平均WER改进,并展示了其泛化性和零样本学习能力在Multilingual Librispeech 上高达9.5%的WER表现。
Nov, 2022
提出了一种基于拼写和分词的自动化WER规范系统,通过在四种语言上的实验,平均WER降低了13.28%。同时,基于该系统的标注数据的人工实验结果表明,该文中所提出的WER规范方法与ASR输出的感知质量高度一致。
Mar, 2023
本研究提出了一种新的宽松的评价模型作为日语自动语音识别的更具潜力的 CER 测量,通过利用词汇量,文本处理计算机系统以及神经机器翻译模型对参考转录文本进行了合理重写。
Jun, 2023
传统自动语音识别模型将输出转换为小写无标点符号的单词,从而降低了可读性,需要进一步的文本处理模型来将语音识别转录成正确的格式。本文介绍了一个名为LibriSpeech-PC的基准测试,用于评估端到端自动语音识别模型在标点和大小写预测方面的能力,同时提出了一种名为PER的新型评估指标,专注于标点符号,并提供了初步的基准模型。所有代码、数据和模型均可公开获取。
Oct, 2023
在自动语音识别(ASR)领域,本文介绍和评估了质量估计(QE)指标作为提高ASR系统中可解释人工智能(XAI)的一种新工具。通过实验和分析,探索了NoRefER(无参考错误率)指标在识别单词级别错误方面的能力,以帮助后期编辑 ASR 假设的改进。研究还扩展到了NoRefER在构建数据集过程中的实用性,展示了它在增加具有深入注释的数据集方面的有效性。对NoRefER的诊断方面进行了检查,揭示了它提供有关模型行为和决策模式的有价值的见解的能力。这对于优先处理后期编辑工作流程和微调ASR模型非常有益。研究结果表明NoRefER不仅仅是一个错误检测工具,还是提高ASR系统透明性、效率和效果的全面框架。为了保证结果的可复现性,本研究的所有源代码都公开可用。
Jan, 2024
本研究解决了乌尔都语自动语音识别(ASR)模型性能评估的不足,提出了一种综合评估方法。研究发现,seamless-large模型在朗读语音数据集上的表现优于其他模型,而whisper-large则在会话语音数据集上表现最佳,强调了在低资源语言中开发强大的ASR系统的重要性。
Sep, 2024
本研究解决了现有自动语音识别(ASR)基准未能反映现实对话环境复杂性的问题,提出了一个来自TalkBank的多语言对话数据集。研究发现,主流ASR模型在此对话环境下性能显著下降,并揭示了语音不流畅性与词错误率之间的相关性,突显了建立更真实对话基准的必要性。
Sep, 2024