Jun, 2024

关于视觉定位在 VQA 中的作用

TL;DR通过形式化的理论框架 “Visually Grounded Reasoning”,本研究揭示了在 VQA 中视觉定位的重要性,指出基于深度神经网络的 VQA 模型通过捷径学习(shortcut learning)绕过视觉定位的情况,并提出了用于测试视觉定位的 Out-of-Distribution 测试方法以及改进性能的方法。