Aug, 2024
通过基于排名的混合训练与多模态融合增强视觉问答
Enhancing Visual Question Answering through Ranking-Based Hybrid
Training and Multimodal Fusion
TL;DR本文针对现有视觉问答(VQA)模型在复杂问题上的局限,提出了Rank VQA模型,该模型采用排名启发式的混合训练策略,以提升VQA性能。实验结果表明,Rank VQA在处理需要细致理解和高级推理的复杂问题时,显著优于当前的最先进模型,展示了基于排名的混合训练策略在提高VQA性能方面的有效性。