使用预训练的 Whisper ASR 模型和基于 transformer 的音标恢复模型,从口语数据中生成粗略音标化的转录文本,作为额外输入,提高了自动音标恢复的性能。通过在同一领域和两个领域外测试集上进行实验证明,该模型相较于仅使用文本的等效模型,至少可以降低 5% 的音标错误率。这些结果凸显了当前基于文本的音标恢复模型在口语数据集上的不足,并为基于口语的音标恢复提供了新的基准。
Nov, 2023
本文提出了一种名为 2SDiac 的多源模型,该模型可以支持输入中的可选变音符,并引入了一种名为有指导性学习的训练方案,以利用不同级别的随机屏蔽中给定的变音符号。实验结果表明,我们的方法在对非变音文本进行评估时,明显优于基准方法。同时,我们的方法参数数量减少超过 60%,达到了最先进的结果。
Jun, 2023
该研究论文探讨了自动语音识别(ASR)系统在不同语音口音上的普适性问题,分析了当前最有前景的口音识别方法,并强调了其中的关键挑战。
Apr, 2021
本研究通过对现有系统、度量和资源的批判性回顾,提供了一个可以用于基准测试阿拉伯文连字的免费清洗数据集。实验结果表明,神经 Shakkala 系统相对于传统的基于规则的方法和其他闭源工具具有更好的连字错误率表现。
Apr, 2019
该研究旨在介绍一个全面的阿拉伯语语音识别基准,专门针对阿拉伯语电话对话的挑战。通过使用多样化的方言表达并考虑电话录音的质量变化,该基准旨在为开发和评估在电话环境中处理阿拉伯语言复杂性的自动语音识别系统提供严格的测试平台,并尝试使用最先进的 ASR 技术建立基准性能评估。
Mar, 2024
这篇文章探讨了自动语音识别方面的技术进展,并比较了针对阿拉伯语和其方言的端到端 Transformer ASR,模块化 HMM-DNN ASR 和人类讲话识别技术之间的性能差距,结果表明,人类在阿拉伯语方面表现仍然明显优于机器。
Jan, 2021
本研究采用自注意力机制,设计了一个大型的多语言端到端语音识别系统,使用阿拉伯语、英语和法语训练。我们评估了该系统在处理单语言、多方言以及代码转换等方面的表现,并与当前最先进的系统进行了比较。结果表明,我们的模型强于最先进的单语言方言阿拉伯语和代码转换阿拉伯语语音识别系统。
May, 2021
本文旨在通过多阶段增强方法来改进阿拉伯语言障碍患者的自动语音识别性能,具体包括使用基于信号的方法生成阿拉伯语言障碍患者的语音,并通过对英语语言障碍患者语音数据进行训练以进行多语言扩充,以及在不同的语音障碍程度下进行微调和文本纠正策略。通过这些方法,本文在阿拉伯语言障碍患者的语音数据集上实现了 18% 的词错误率和 17.2% 的字符错误率,相比只针对健康数据训练的基础模型,实现了 81.8% 的 WER 提升,并在真实的英文语言障碍患者语音数据集上实现了 124% 的 WER 提升。
本文研究如何利用预训练语言模型来学习阿拉伯语言中的符号标记,并通过微调模型来实现不需特征工程,最小化训练量的方式进行符号标记任务,从而取得了最新的指标
Mar, 2023
使用一种探测方法,发现了 ASR 系统处理在 L2 英语方言中的发音差异时,出现了声素级别的错误并产生了更高的 WER。这项工作系统地说明了 ASR 的行为,通过确定特定问题的物质来源来提高 ASR 的准确性。
May, 2023