ACLMay, 2023

HaVQA: 用于豪萨语视觉问答和多模态研究的数据集

TL;DR本文介绍 HaVQA 数据集,这是用于哈萨语视觉问答任务的第一个多模态数据集。数据集包含来自视觉基因组的 1,555 张图像以及经过手工翻译的 6,022 个英文问题答案对,提供了 12,044 个英文 - 豪萨语平行语句,可用于进行基线实验,包括视觉问答、视觉问答引导、仅文本和多模态机器翻译。