May, 2024

Mixat: 阿联酋英语双语语音数据集

TL;DR论文介绍了Mixat数据集,该数据集是阿拉伯语和多语言的语音识别系统在阿联酋方言的表现及其代码切换识别方面存在的不足的解决方案之一。数据集包括15小时的两个公共播客中,以阿拉伯语和英语进行代码混合的阿联酋演讲的例子,可以应用于语音识别的研究。