Feb, 2024

VISREAS: 复杂视觉推理与无法回答的问题

TL;DR验证图像问题的可回答性及其对应于图像的性能对于实际应用中的问题回答至关重要。我们通过创建一个新的组合视觉问答数据集(VISREAS)来满足这一需求,并引入了一个新的基线模型(LOGIC2VISION),该模型通过生成并执行伪代码来进行推理,超越了目前在 VISREAS 上的生成模型,最终取得了显著的性能提升。