Oct, 2023
ViCLEVR:一种用于越南视觉问答的视觉推理数据集和混合多模态融合模型
ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese
Khiem Vinh Tran, Hao Phu Phan, Kiet Van Nguyen, Ngan Luu Thuy Nguyen
TL;DR通过引入具有开拓性质的 ViCLEVR 数据集,该研究对当代视觉推理系统进行了全面分析,提出了一种综合的多模态融合模型 PhoVIT,并在四个评估指标上取得了最先进的性能,进一步促进了针对低资源语言的多模态融合算法的发展。