May, 2023

OpenViVQA: 越南语视觉问题回答任务、数据集和多模态融合模型

TL;DR本文介绍了OpenViVQA:首个包含越南语开放式答案的大规模VQA数据集,包括11,000+图像和37,000+ 问答对,并提出了三个融合图像和答案信息的方法(FST,QuMLAG和MLPAG),并使用这些融合的特征构建答案,旨在促进研究社区针对越南语这类低资源语言开发出更广义的算法,结果与SOTA模型竞争力相当。