Oct, 2023

ViCLEVR:一种用于越南视觉问答的视觉推理数据集和混合多模态融合模型

TL;DR通过引入具有开拓性质的 ViCLEVR 数据集,该研究对当代视觉推理系统进行了全面分析,提出了一种综合的多模态融合模型 PhoVIT,并在四个评估指标上取得了最先进的性能,进一步促进了针对低资源语言的多模态融合算法的发展。