倡导多语言自动语音识别评估中的字符错误率
本文探讨了利用单一声学模型进行多种语言训练,以提高低资源语言的自动语音识别性能,并简化支持多种语言的ASR系统的部署。作者在51种语言上进行广泛的基准测试和比较,表明与单语言训练相比,多语言训练的ASR模型可以提高识别性能,特别是对于低资源语言。与单语言基线相比,联合模型、具有语言输入的联合模型和多头模型的平均WER相对减少20.9%、23%和28.8%。据我们所知,这是第一次研究超过50种语言和超过16,000小时声音跨其的多语言ASR的大规模研究。
Jul, 2020
本文质疑了现代自动语音识别系统在基准数据集上达到极低词错误率的报告,同时比较了三种最先进的商用自动语音识别系统在现实生活中的人类对话和公共基准测试中的表现,并得出结论:WERs显著高于最佳报告结果。我们制定了一组准则,可帮助创建高质量注释的现实生活中多领域数据集,以训练和测试强大的ASR系统。
Oct, 2020
提出了适用于半字符语言的新的语音识别误差率计算方法,通过实现在印地语中表明其在包含大字符集的语言中可扩展性,并开源了包含新度量脚本的印地语基准数据集,为提高语音识别系统表现提供了新的可能性。
Mar, 2022
该研究探讨了在自动语音识别(ASR)研究中备受关注的‘Switchboard benchmark’数据集的一些实用考虑,并提出了修正参考转录和改变评分方法的更详细和可重复的方案。通过这种方案,甚至商业ASR系统的WER得分也可以低于5%,研究系统的表现记录下降至2.3%。此外,还探索了使用标准化评分工具计算oracle WER的方法,并比较了短语备选项表示和utterance/word-level的结构。最终,使用密集网络和添加字典外单词的方法实现了0.18%的oracle WER。
Jun, 2022
该研究调查了使用BERTScore作为语音识别模型质量评估的度量标准。BERTScore与WER相比,在计算错误类型和评估方面更符合人工评定的标准。因此,BERTScore可以在实际应用中辅助WER,特别是在无障碍应用中,即使模型的精度比典型语音的精度低,模型仍然是有用的。
Sep, 2022
提出了一种基于拼写和分词的自动化WER规范系统,通过在四种语言上的实验,平均WER降低了13.28%。同时,基于该系统的标注数据的人工实验结果表明,该文中所提出的WER规范方法与ASR输出的感知质量高度一致。
Mar, 2023
提出了一种新颖的多语言语音识别框架——eWER3,通过联合训练声学和词汇表示来估计词错误率,该模型推动了邻近语言的表现,并在估计单词错误率的方法上优于以往的单语言方法(eWER2)。
Apr, 2023
本研究提出了一种新的宽松的评价模型作为日语自动语音识别的更具潜力的 CER 测量,通过利用词汇量,文本处理计算机系统以及神经机器翻译模型对参考转录文本进行了合理重写。
Jun, 2023
提出了一种用于ASR系统独立的WER估计的假设生成方法,通过使用语音相似或语言上更可能的替代词产生假设,并在域内数据上达到了与ASR系统相关的WER估计器相似的性能,在域外数据上实现了最先进的性能。
Apr, 2024
本文针对多语言自动语音识别(ASR)模型评估中的问题,尤其是印地语脚本,进行了深入研究。研究发现目前的文本规范化方法在评估印地语时存在根本性缺陷,导致性能指标被人为抬高,提出了利用本土语言专业知识发展的新规范化方案,以确保多语言ASR模型的评估更加准确和可靠。
Sep, 2024