苏丹方言的端到端自动语音识别模型

Dec, 2022

苏丹方言的端到端自动语音识别模型

End-to-End Automatic Speech Recognition model for the Sudanese Dialect

Ayman Mansour, Wafaa F. Mukhtar

TL;DR本研究检验了针对苏丹语方言设计自动语音识别模型的可行性，并使用卷积神经网络设计了一种端到端语音识别模型，该模型在苏丹方言数据集上取得了 73.67% 的平均标签错误率

Abstract

Designing a natural voice interface rely mostly on speech recognition for interaction between human and their modern digital life equipment. In addition, speech recognition narrows the gap between monolingual ind

speech recognition sudanese dialect automatic speech recognition model convolution neural networks label error rate

发现论文，激发创造

利用数据收集和无监督学习对突尼斯阿拉伯语混合语音自动识别的提升

本研究旨在解决突尼斯方言语音识别的挑战，通过采集和注释文本和音频数据，并探索自监督、半监督和少样本代码转换方法，使其在不同的突尼斯测试集中取得前沿成果，最终通过人工评估确保翻译的准确性，所提出的模型适用于突尼斯阿拉伯语、英语和法语的语言混合，并提供训练和测试数据供公众使用和进一步改进。

Sep, 2023

阿拉伯广播语音的自动方言识别

本文研究使用语音识别系统获得的音位、词汇特征以及基于 i - 向量框架的声学特征等不同方法来进行阿拉伯语方言识别的研究，使用多类支持向量机（SVM）综合这些特征，并在阿拉伯语 / 英语语言识别任务中获得 100％的准确率。在本研究中，我们使用这些特征作为二元分类器来对现代标准阿拉伯语（MSA）和方言阿拉伯语进行区分，获得了 100％的准确率，然后进一步报道了使用该方法来区分最广泛使用的阿拉伯语方言中的五种：埃及语，海湾语，黎凡特语，北非语和 MSA，准确率为 52％。本文讨论了方言识别的错误以及在方言阿拉伯语和 MSA 之间进行语言代码切换的上下文中的错误模式。最后我们释放了研究中使用的数据作为方言识别的标准语料库。

Sep, 2015

基于端到端、模块化系统和人类的阿拉伯语语音识别

这篇文章探讨了自动语音识别方面的技术进展，并比较了针对阿拉伯语和其方言的端到端 Transformer ASR，模块化 HMM-DNN ASR 和人类讲话识别技术之间的性能差距，结果表明，人类在阿拉伯语方面表现仍然明显优于机器。

Jan, 2021

在阿拉伯电话领域中评估自动语音识别系统的新基准

该研究旨在介绍一个全面的阿拉伯语语音识别基准，专门针对阿拉伯语电话对话的挑战。通过使用多样化的方言表达并考虑电话录音的质量变化，该基准旨在为开发和评估在电话环境中处理阿拉伯语言复杂性的自动语音识别系统提供严格的测试平台，并尝试使用最先进的 ASR 技术建立基准性能评估。

Mar, 2024

面向阿拉伯方言的零射 Text-To-Speech

构建了一个包含多个方言的阿拉伯语音合成模型并通过评估表明其潜力大。

Jun, 2024

一个模型统治所有：方言码转换阿拉伯语自动语音识别的多语言策略

本研究采用自注意力机制，设计了一个大型的多语言端到端语音识别系统，使用阿拉伯语、英语和法语训练。我们评估了该系统在处理单语言、多方言以及代码转换等方面的表现，并与当前最先进的系统进行了比较。结果表明，我们的模型强于最先进的单语言方言阿拉伯语和代码转换阿拉伯语语音识别系统。

May, 2021

基于 Wav2Vec2 和迁移学习的孟加拉语自动语音识别系统

本文旨在利用基于迁移学习框架的端到端语音识别技术，提高孟加拉语的语音识别性能，并在使用仅 1000 个训练样本进行训练的情况下，在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。

Sep, 2022

利用语音合成训练端到端口语理解模型

文章提出了一种使用语音合成生成大规模合成数据集的方法，以克服要求领域内语音数据记录的问题，并在两个开源数据集上进行实验证明该方法在作为训练数据的唯一来源和数据扩充形式时的有效性。

Oct, 2019

面向非洲语言的大词汇量语音识别：多语言建模和自监督学习

应用多语言模型和自监督学习方法进行预训练和汇集可用数据来提高语音识别质量，为非洲语言建立大词汇量语音识别系统。

Aug, 2022

朝向端到端口语理解

本文研究了口语理解系统的端到端学习方法，能够直接从音频特征中推断语义意义，而不需要中间文本表示。研究表明，该模型能够获得合理好的结果，并能直接从音频特征中捕捉语义注意力。

Feb, 2018