ACLMay, 2023

BIG-C:面向本巴语的多模态通用数据集

TL;DRBIG-C 是一个基于图像的 Bemba 语言的大型多模数据集,其中包含 92,000 多轮对话,180 小时的音频数据和对应的翻译,提供了语音识别、机器翻译和语音翻译等任务的基线,并且意在促进语言、语音和视觉社区之间的研究和合作。