ArzEn-ST: 一个用于代码转换的埃及阿拉伯语 - 英语三语言言翻译语料库
该研究以机器翻译和自动语音识别系统为基础,探索埃及阿拉伯语和英语的代码切换现象,并提供了关于开发这些系统的方法学,使用了 LLama 和 Gemma 等大规模语言模型。该研究实验了 Whisper 模型在代码切换的埃及阿拉伯语识别中的应用,详细介绍了数据预处理和训练技术等实验过程。通过将自动语音识别与机器翻译相结合的连续语音转文本翻译系统的实现,研究旨在克服有限资源和埃及阿拉伯语方言的独特特点所带来的挑战。通过与已有指标的评估,我们的方法在英语翻译方面取得了 56% 的显著提高和 9.3% 的阿拉伯语翻译提高。由于代码切换在口头语言中是根深蒂固的,自动语音识别系统能够有效处理这一现象至关重要。这种能力对于实现各个领域的无缝交流至关重要,包括商务谈判、文化交流和学术讨论。我们的模型和代码可作为开源资源使用。
Jun, 2024
本研究使用基于 DNN 的混合和 Transformer 的端到端模型构建自动语音识别系统并通过构建系统集成方法来提高识别率,结果表明两种模型相互补充且识别性能都不错。
Aug, 2021
我们提供了一个多语言 TEDx 语料库,支持语音识别和语音翻译的研究,可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合,提供了 8 个源语言,我们将转录分割成句子,并将它们与源语言音频和目标语言翻译对齐。此外,我们提供基线模型,包括多语种模型,以提高低资源语种的翻译性能。
Feb, 2021
本文基于随机词汇替换和等价约束,利用对齐翻译对生成随机合法的混合语言内容进行零样本学习,以解决跨语言语音识别中数据稀缺性、语法结构复杂性和领域匹配问题,实验结果显示,所提出的方法在两个生态有效的混合语言测试集上相对降低了 65.5% 的语言模型困惑度和 7.7% 的 ASR WER,而采用等价约束的人类评估表明,80% 以上的内容质量足够。
Jan, 2022
我们提供了 ArTST,这是一个预先训练的阿拉伯文本和语音转换器,支持用于阿拉伯语言的开源语音技术。该模型的架构遵循最近发布的英语统一模态框架 SpeechT5,并且专注于现代标准阿拉伯语(MSA),未来版本计划将该模型扩展为方言和混合阿拉伯语。我们从头开始对 MSA 语音和文本数据进行了预训练,并对以下任务进行了微调:自动语音识别(ASR),文本到语音合成(TTS)和口语方言识别。在与 SpeechT5 以及先前报告的结果在这些任务中的比较实验中,ArTST 在所有三个任务中表现与或超过当前最先进技术水平。此外,我们发现我们的预训练有利于泛化,尤其在资源匮乏的 TTS 任务中表现明显。预训练模型以及微调后的 ASR 和 TTS 模型已发布供研究使用。
Oct, 2023
本研究通过收集欧洲议会在 2008 年至 2012 年期间进行的演讲,创建了一个新型的包括 6 种欧洲语言互相翻译的语音和文本样本的多语种 SLT 语料库 Europarl-ST,并展示了一系列的语音识别、机器翻译和口语翻译实验。
Nov, 2019
我们提供 ZAEBUC-Spoken,这是一个多语种多方言的阿拉伯语 - 英语语音语料库,包括阿拉伯语和英语两种语言,其中阿拉伯语有多个变体(现代标准阿拉伯语、海湾阿拉伯语和埃及阿拉伯语),并且用不同的口音使用英语,包括这些语言和方言之间的混码。
Mar, 2024
通过先前训练好的自动语音识别 (ASR) 和机器翻译 (MT) 模块的结合,本研究提出了一种名为 COSTA 的端到端模型架构,用于印度语言到英文文本的混合语言实时翻译,并发布出相关评估基准。COSTA 在混合语言的孟加拉语、印地语、马拉地语和泰卢固语到英文文本的翻译中,相对于其他基线模型表现出显著优势,BLEU 点数提高达 3.5。
Jun, 2024
本研究采用自注意力机制,设计了一个大型的多语言端到端语音识别系统,使用阿拉伯语、英语和法语训练。我们评估了该系统在处理单语言、多方言以及代码转换等方面的表现,并与当前最先进的系统进行了比较。结果表明,我们的模型强于最先进的单语言方言阿拉伯语和代码转换阿拉伯语语音识别系统。
May, 2021
本篇研究关注英语 / 西班牙语对话中出现的代码转换,探讨在语音翻译任务中采用级联和端到端、单向和双向等不同架构的模型表现,得出双向端到端模型表现良好的结论。
Apr, 2022