本研究旨在解决突尼斯方言语音识别的挑战,通过采集和注释文本和音频数据,并探索自监督、半监督和少样本代码转换方法,使其在不同的突尼斯测试集中取得前沿成果,最终通过人工评估确保翻译的准确性,所提出的模型适用于突尼斯阿拉伯语、英语和法语的语言混合,并提供训练和测试数据供公众使用和进一步改进。
Sep, 2023
本文研究使用语音识别系统获得的音位、词汇特征以及基于 i - 向量框架的声学特征等不同方法来进行阿拉伯语方言识别的研究,使用多类支持向量机(SVM)综合这些特征,并在阿拉伯语 / 英语语言识别任务中获得 100%的准确率。在本研究中,我们使用这些特征作为二元分类器来对现代标准阿拉伯语(MSA)和方言阿拉伯语进行区分,获得了 100%的准确率,然后进一步报道了使用该方法来区分最广泛使用的阿拉伯语方言中的五种:埃及语,海湾语,黎凡特语,北非语和 MSA,准确率为 52%。本文讨论了方言识别的错误以及在方言阿拉伯语和 MSA 之间进行语言代码切换的上下文中的错误模式。最后我们释放了研究中使用的数据作为方言识别的标准语料库。
Sep, 2015
这篇文章探讨了自动语音识别方面的技术进展,并比较了针对阿拉伯语和其方言的端到端 Transformer ASR,模块化 HMM-DNN ASR 和人类讲话识别技术之间的性能差距,结果表明,人类在阿拉伯语方面表现仍然明显优于机器。
Jan, 2021
该研究旨在介绍一个全面的阿拉伯语语音识别基准,专门针对阿拉伯语电话对话的挑战。通过使用多样化的方言表达并考虑电话录音的质量变化,该基准旨在为开发和评估在电话环境中处理阿拉伯语言复杂性的自动语音识别系统提供严格的测试平台,并尝试使用最先进的 ASR 技术建立基准性能评估。
Mar, 2024
构建了一个包含多个方言的阿拉伯语音合成模型并通过评估表明其潜力大。
Jun, 2024
本研究采用自注意力机制,设计了一个大型的多语言端到端语音识别系统,使用阿拉伯语、英语和法语训练。我们评估了该系统在处理单语言、多方言以及代码转换等方面的表现,并与当前最先进的系统进行了比较。结果表明,我们的模型强于最先进的单语言方言阿拉伯语和代码转换阿拉伯语语音识别系统。
May, 2021
本文旨在利用基于迁移学习框架的端到端语音识别技术,提高孟加拉语的语音识别性能,并在使用仅 1000 个训练样本进行训练的情况下,在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。
Sep, 2022
文章提出了一种使用语音合成生成大规模合成数据集的方法,以克服要求领域内语音数据记录的问题,并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。
Oct, 2019
应用多语言模型和自监督学习方法进行预训练和汇集可用数据来提高语音识别质量,为非洲语言建立大词汇量语音识别系统。
Aug, 2022
本文研究了口语理解系统的端到端学习方法,能够直接从音频特征中推断语义意义,而不需要中间文本表示。研究表明,该模型能够获得合理好的结果,并能直接从音频特征中捕捉语义注意力。
Feb, 2018