该研究旨在通过模仿人类视觉问题解决中的 “看、记住、推理” 模式,引入基于视觉输入的原理来整合低级视觉能力,使现有的大型语言模型能够在视觉推理问题上取得竞争性表现。
Jun, 2023
本文提出一个框架来单独评估视觉问答(VQA)中的推理方面,同时引入一种新颖的自上而下校准技术,以使模型即使具有不完美的感知也能回答推理问题,通过在具有挑战性的 GQA 数据集上进行深入的分离比较,可以了解到众所周知的 VQA 模型参与的见解以及任务。
Jun, 2020
我们提出了一种新的视觉问答架构,通过常识推理作为监督信号来减轻模型在缺乏视觉基础的情况下的性能不足,并通过相似性损失将模型的视觉注意力引导到场景的重要元素,从而提高模型的视觉感知能力和性能。
Sep, 2023
本文采用模块化网络模型,使用神经网络实现程序生成器和执行引擎,通过反向传播和 REINFORCE 的训练方法,在视觉推理任务(CLEVR)上打破基线模型,表现显著优越,并在各种环境中具有更好的推广性能。
May, 2017
该论文提出了一种在视觉问答任务中使用通感推理的方法,该方法可以通过显式推理层来解决一些需要额外知识的问题,并提供可解释性的界面。该推理层采用了基于概率的软逻辑引擎,并运用了一篮子输入来进行推理。实验证实了该方法的有效性。
Mar, 2018
本文提出了一种非单调计算方法来解决视觉抽象推理任务,使用 RAVEN 数据集进行测试,并与现有单调深度学习模型进行比较,结果表明,该方法比现有单调深度学习模型更加有效。
Feb, 2023
本文提出一种可视化推理基元的方法,将其组合成一种能够通过显式可解释的方式执行复杂推理任务的模型,并在 CLEVR 数据集上取得了 99.1% 的准确度,同时有效地学习了泛化表示。
本文提出了一种新的推理框架来填补 VQA 任务中视觉特征和语义线索之间的语义鸿沟,实现了特征和谓词的有效联合学习,并在三个大规模数据集上实现了其他最先进方法无法比拟的准确度,同时还提供了一种可解释的方式来理解深度神经网络在预测答案时的决策。
Oct, 2021
通过视觉问答框架和基于 CLEVR 的故障排除数据集,提出了一种双方游戏来评估视觉智能系统的推理能力,并探讨了数据驱动方法在没有利用数据集中的种种偏见的情况下是否可以进行推理。
Feb, 2022
本论文提出了一个自然语言视觉推理的任务,通过图片和描述语句的配对,预测描述语句在给定场景中的真假。该任务涉及自然语言、机器人代理、语言输入、视觉推理以及合成图像等方面。
Oct, 2017