我们立足何处:乌尔都语自动语音识别模型基准评估
本文质疑了现代自动语音识别系统在基准数据集上达到极低词错误率的报告,同时比较了三种最先进的商用自动语音识别系统在现实生活中的人类对话和公共基准测试中的表现,并得出结论:WERs显著高于最佳报告结果。我们制定了一组准则,可帮助创建高质量注释的现实生活中多领域数据集,以训练和测试强大的ASR系统。
Oct, 2020
这篇文章探讨了自动语音识别方面的技术进展,并比较了针对阿拉伯语和其方言的端到端Transformer ASR,模块化HMM-DNN ASR和人类讲话识别技术之间的性能差距,结果表明,人类在阿拉伯语方面表现仍然明显优于机器。
Jan, 2021
该论文介绍了目前最大的阿拉伯语语音数据集 QASR,包含 2000 小时的文本和语音数据,可以用于语音识别、语音和/或语言学中阿拉伯语方言识别、语音人物识别和潜在的其他 NLP 模块的训练和评估。对于下游 NLP 任务,如命名实体识别和阿拉伯语标点修复,该数据集还提供了基线结果。
Jun, 2021
提出了一种基于拼写和分词的自动化WER规范系统,通过在四种语言上的实验,平均WER降低了13.28%。同时,基于该系统的标注数据的人工实验结果表明,该文中所提出的WER规范方法与ASR输出的感知质量高度一致。
Mar, 2023
本文介绍了在嘈杂的呼叫中心环境中,使用链式混合HMM和CNN-TDNN来构建资源高效的自动语音识别/语音转文本系统,以解决自动化语音识别在区域呼叫中心中的“代码切换”问题,以提高关键词搜索和情感分析的准确性,实现了5.2%的识别错误率。
Jul, 2023
该研究旨在介绍一个全面的阿拉伯语语音识别基准,专门针对阿拉伯语电话对话的挑战。通过使用多样化的方言表达并考虑电话录音的质量变化,该基准旨在为开发和评估在电话环境中处理阿拉伯语言复杂性的自动语音识别系统提供严格的测试平台,并尝试使用最先进的ASR技术建立基准性能评估。
Mar, 2024
本研究介绍了一种用于从有声读物生成ASR训练数据集的新型流程,以应对资源稀缺语言中自动语音识别系统性能较差的问题。该方法通过有效地对齐音频和相应的文本,并将其分割成适合ASR训练的长度,简化了资源稀缺语言中ASR系统的数据准备工作,并通过对亚美尼亚语的案例研究证明了其应用价值。这种方法可以适用于许多资源稀缺语言,不仅解决了数据匮乏问题,还提高了低资源语言的ASR模型性能。
Jun, 2024
本文解决了自动语音识别中传统字错误率(WER)计算的局限性,特别是在标点和大小写等非语义差异方面的信息丢失。通过采用扩展的莱文斯坦距离算法,我们提出了一种非破坏性的基于令牌的方法,能够计算更加稳健的WER和其他正字法指标,并利用字符串相似性和语音算法对转录错误进行更细致的分类。研究表明,我们的方法在多个数据集上的效果与常用的WER计算方式相当,并提供了基于此的用例分析及互动可视化的网络应用。
Aug, 2024
本文针对多语言自动语音识别(ASR)模型评估中的问题,尤其是印地语脚本,进行了深入研究。研究发现目前的文本规范化方法在评估印地语时存在根本性缺陷,导致性能指标被人为抬高,提出了利用本土语言专业知识发展的新规范化方案,以确保多语言ASR模型的评估更加准确和可靠。
Sep, 2024
本研究解决了现有自动语音识别(ASR)基准未能反映现实对话环境复杂性的问题,提出了一个来自TalkBank的多语言对话数据集。研究发现,主流ASR模型在此对话环境下性能显著下降,并揭示了语音不流畅性与词错误率之间的相关性,突显了建立更真实对话基准的必要性。
Sep, 2024