May, 2023
OpenViVQA: 越南语视觉问题回答任务、数据集和多模态融合模型
OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual
Question Answering in Vietnamese
TL;DR本文介绍了OpenViVQA:首个包含越南语开放式答案的大规模VQA数据集,包括11,000+图像和37,000+ 问答对,并提出了三个融合图像和答案信息的方法(FST,QuMLAG和MLPAG),并使用这些融合的特征构建答案,旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法,结果与SOTA模型竞争力相当。