Feb, 2024

II-MMR: 识别和改进多模式多跳推理在视觉问答中

TL;DR本文介绍了一种新的方法 II-MMR,用于在视觉和语言(V&L)中进行多模多跳推理,通过识别和改进 VQA 中的不同推理案例。II-MMR 通过使用两种新的语言提示:(i)答案预测引导的 Chain-of-Thought(CoT)提示,或(ii)知识三元组引导的提示,找到了一个推理路径来回答 VQA 问题。II-MMR 观察到,在包括 GQA 和 A-OKVQA 的流行基准测试中,大多数 VQA 问题容易回答,只需要 “单跳” 推理,而只有很少的问题需要 “多跳” 推理。另外,尽管最近的 V&L 模型在传统的 CoT 方法下难以处理这些复杂的多跳推理问题,但 II-MMR 在零 - shot 和微调设置中展示了其在所有推理案例中的有效性。