Oct, 2023

ArTST:阿拉伯文本和语音转换器

TL;DR我们提供了 ArTST,这是一个预先训练的阿拉伯文本和语音转换器,支持用于阿拉伯语言的开源语音技术。该模型的架构遵循最近发布的英语统一模态框架 SpeechT5,并且专注于现代标准阿拉伯语(MSA),未来版本计划将该模型扩展为方言和混合阿拉伯语。我们从头开始对 MSA 语音和文本数据进行了预训练,并对以下任务进行了微调:自动语音识别(ASR),文本到语音合成(TTS)和口语方言识别。在与 SpeechT5 以及先前报告的结果在这些任务中的比较实验中,ArTST 在所有三个任务中表现与或超过当前最先进技术水平。此外,我们发现我们的预训练有利于泛化,尤其在资源匮乏的 TTS 任务中表现明显。预训练模型以及微调后的 ASR 和 TTS 模型已发布供研究使用。