May, 2023

OpenViVQA: 越南语视觉问题回答任务、数据集和多模态融合模型

TL;DR本文介绍了 OpenViVQA:首个包含越南语开放式答案的大规模 VQA 数据集,包括 11,000 + 图像和 37,000+ 问答对,并提出了三个融合图像和答案信息的方法(FST,QuMLAG 和 MLPAG),并使用这些融合的特征构建答案,旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法,结果与 SOTA 模型竞争力相当。