级联互相调制的视觉推理

EMNLPSep, 2018

Cascaded Mutual Modulation for Visual Reasoning

Yiqun Yao, Jiaming Xu, Feng Wang, Bo Xu

TL;DRCMM 是一种端到端的视觉推理模型，通过特征逐步的线性调制 (FiLM) 技术实现了问答过程中的文本 / 视觉互动，实验结果表明 CMM 在视觉推理问题上达到了最新的最优性能。

Abstract

visual reasoning is a special visual question answering problem that is multi-step and compositional by nature, and also requires intensive text-vision interactions. We propose CMM: cascaded mutual modulation as

visual reasoning cascaded mutual modulation text-vision interactions feature-wise linear modulation state-of-the-art

发现论文，激发创造

推进大型多模型：明确的推理链与视觉问题生成

本文介绍了一种通过图像内容和文字指令进行显式推理的新方法，采用大型多模态模型（LMM），并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时，朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。

Jan, 2024

跨模态问答中因果感知的视觉场景发现

本文提出了一个名为 CMQR 的事件级视觉问答推理框架，旨在显式地发现时间因果结构并通过因果干预来减轻视觉虚假相关性。实验结果表明，CMQR 发现了视觉因果结构并实现了鲁棒的问题推理。

Apr, 2023

II-MMR: 识别和改进多模式多跳推理在视觉问答中

本文介绍了一种新的方法 II-MMR，用于在视觉和语言（V&L）中进行多模多跳推理，通过识别和改进 VQA 中的不同推理案例。II-MMR 通过使用两种新的语言提示：（i）答案预测引导的 Chain-of-Thought（CoT）提示，或（ii）知识三元组引导的提示，找到了一个推理路径来回答 VQA 问题。II-MMR 观察到，在包括 GQA 和 A-OKVQA 的流行基准测试中，大多数 VQA 问题容易回答，只需要 “单跳” 推理，而只有很少的问题需要 “多跳” 推理。另外，尽管最近的 V&L 模型在传统的 CoT 方法下难以处理这些复杂的多跳推理问题，但 II-MMR 在零 - shot 和微调设置中展示了其在所有推理案例中的有效性。

Feb, 2024

事件级别视觉问答的跨模态因果关系推理

本文提出了一种名为 CMCIR 的事件级别视觉问答框架，以实现稳健的因果感知视觉 - 语言问答，其利用因果干预方法发现视觉和语言两种模态的真实因果结构，并成功地在四个事件级别数据集上验证了其优越性。

Jul, 2022

描述 - 理由：通过视觉理解训练改进多模态数学推理

通过视觉理解训练和数学推理学习，我们提出了一种名为 VCAR 的两步训练方法，以改善多模态大型语言模型在复杂数学推理中的表现。实验证明，VCAR 在高视觉要求的问题上明显优于仅依赖推理监督的基线方法。

Apr, 2024

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

多跳特征调节视觉推理

本文提出了在卷积神经网络中多次迭代地生成 Feature-wise Linear Modulation（FiLM）层参数的方法，以更好地处理诸如对话等较长的输入序列，并在 GuessWhat？！视觉对话任务中显著优于之前的最新技术和单次 FiLM 生成。

Aug, 2018

人类与多模态 LLMs 之间的视觉认知差距是什么？

我们提出了一个新数据集 MaRs-VQA 和一个新的基准 VCog-Bench，以评估 Multimodal Large Language Models 的零射击 Abstract Visual Reasoning 能力，并将其与现有的人类智能研究进行比较。我们的实验结果揭示了当前 MLLMs 在视觉认知方面存在的局限性。

Jun, 2024

DMRM: 用于视觉对话的双通道多跳推理模型

提出了一种新的视觉对话模型 DMRM，通过双通道多跳推理结合多模态注意力，有效地将问题、图像和历史上下文信息融合，从而提高了视觉对话的生成质量。在 VisDial v0.9 和 v1.0 数据集上，DMRM 模型的实验结果表明，相比较其他模型，DMRM 模型具有更好的效果。

Dec, 2019

一种基于多模态上下文推理的条件推断方法，适用于联合文本和视觉线索

提出了一种名为 ModCR 的多模态上下文推理方法，结合文本信息和图像信息进行上下文推理，相较于之前的基于预训练视觉 - 语言模型的方法，ModCR 将给定的文本抽象语义和客观图像信息作为上下文信息，在预训练的语言模型中嵌入它们进行上下文推理，并通过引入可学习的对齐前缀将多视角语义对齐信息与语言和图形结合起来，使得该语言模型更适用于联合文本和视觉线索的多模态推理场景。

May, 2023