级联互相调制的视觉推理
本文介绍了一种通过图像内容和文字指令进行显式推理的新方法,采用大型多模态模型(LMM),并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时,朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。
Jan, 2024
本文提出了一个名为 CMQR 的事件级视觉问答推理框架,旨在显式地发现时间因果结构并通过因果干预来减轻视觉虚假相关性。实验结果表明,CMQR 发现了视觉因果结构并实现了鲁棒的问题推理。
Apr, 2023
本文介绍了一种新的方法 II-MMR,用于在视觉和语言(V&L)中进行多模多跳推理,通过识别和改进 VQA 中的不同推理案例。II-MMR 通过使用两种新的语言提示:(i)答案预测引导的 Chain-of-Thought(CoT)提示,或(ii)知识三元组引导的提示,找到了一个推理路径来回答 VQA 问题。II-MMR 观察到,在包括 GQA 和 A-OKVQA 的流行基准测试中,大多数 VQA 问题容易回答,只需要 “单跳” 推理,而只有很少的问题需要 “多跳” 推理。另外,尽管最近的 V&L 模型在传统的 CoT 方法下难以处理这些复杂的多跳推理问题,但 II-MMR 在零 - shot 和微调设置中展示了其在所有推理案例中的有效性。
Feb, 2024
本文提出了一种名为 CMCIR 的事件级别视觉问答框架,以实现稳健的因果感知视觉 - 语言问答,其利用因果干预方法发现视觉和语言两种模态的真实因果结构,并成功地在四个事件级别数据集上验证了其优越性。
Jul, 2022
通过视觉理解训练和数学推理学习,我们提出了一种名为 VCAR 的两步训练方法,以改善多模态大型语言模型在复杂数学推理中的表现。实验证明,VCAR 在高视觉要求的问题上明显优于仅依赖推理监督的基线方法。
Apr, 2024
基于多模态知识的常识推理是根本,我们介绍了一种方法来增强大型语言模型的视觉常识能力,该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上,还在传统自然语言处理基准上优于现有基线模型。
Jun, 2024
本文提出了在卷积神经网络中多次迭代地生成 Feature-wise Linear Modulation(FiLM)层参数的方法,以更好地处理诸如对话等较长的输入序列,并在 GuessWhat?!视觉对话任务中显著优于之前的最新技术和单次 FiLM 生成。
Aug, 2018
我们提出了一个新数据集 MaRs-VQA 和一个新的基准 VCog-Bench,以评估 Multimodal Large Language Models 的零射击 Abstract Visual Reasoning 能力,并将其与现有的人类智能研究进行比较。我们的实验结果揭示了当前 MLLMs 在视觉认知方面存在的局限性。
Jun, 2024
提出了一种新的视觉对话模型 DMRM,通过双通道多跳推理结合多模态注意力,有效地将问题、图像和历史上下文信息融合,从而提高了视觉对话的生成质量。在 VisDial v0.9 和 v1.0 数据集上,DMRM 模型的实验结果表明,相比较其他模型,DMRM 模型具有更好的效果。
Dec, 2019
提出了一种名为 ModCR 的多模态上下文推理方法,结合文本信息和图像信息进行上下文推理,相较于之前的基于预训练视觉 - 语言模型的方法,ModCR 将给定的文本抽象语义和客观图像信息作为上下文信息,在预训练的语言模型中嵌入它们进行上下文推理,并通过引入可学习的对齐前缀将多视角语义对齐信息与语言和图形结合起来,使得该语言模型更适用于联合文本和视觉线索的多模态推理场景。
May, 2023