事件级别视觉问答的跨模态因果关系推理

Jul, 2022

事件级别视觉问答的跨模态因果关系推理

Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering

Yang Liu, Guanbin Li, Liang Lin

TL;DR本文提出了一种名为 CMCIR 的事件级别视觉问答框架，以实现稳健的因果感知视觉 - 语言问答，其利用因果干预方法发现视觉和语言两种模态的真实因果结构，并成功地在四个事件级别数据集上验证了其优越性。

Abstract

Existing visual question answering methods tend to capture the cross-modal spurious correlations, and fail to discover the true causal mechanism that facilitates reasoning truthfully based on the dominant visual evidence and the question intention. Additionally, the existing methods us

visual question answering causal relational reasoning cross-modal event-level understanding causality-aware visual-linguistic question answering multi-modal co-occurrence interactions

发现论文，激发创造

跨模态问答中因果感知的视觉场景发现

本文提出了一个名为 CMQR 的事件级视觉问答推理框架，旨在显式地发现时间因果结构并通过因果干预来减轻视觉虚假相关性。实验结果表明，CMQR 发现了视觉因果结构并实现了鲁棒的问题推理。

Apr, 2023

跨模态事件相关的视频问答中的推理

通过引入密集描述模态作为辅助信息，提出了一种新颖的端到端可训练模型，Event-Correlated Graph Neural Networks（EC-GNNs），以从三种模态（描述、视频和问题）中执行跨模态推理，并通过多步推理收集问题导向和事件相关证据。

Dec, 2023

视频问答的视觉因果场景细化

本文提出一种名为 VCSR 的跨模态因果关系推理框架，通过因果分析发现视频中关键的因果事件，解决了现有视频问答方法在识别视觉证据和问题方面的失败。实验表明，该方法在视频问答中表现出卓越的性能。

May, 2023

透过两层认知的因果推理，提高视觉问答中的泛化能力

利用认知路径的 VQA（CopVQA）通过强调因果推理因素来改善多模态预测，从而支持 VQA 中的概括推理。

Oct, 2023

级联互相调制的视觉推理

CMM 是一种端到端的视觉推理模型，通过特征逐步的线性调制 (FiLM) 技术实现了问答过程中的文本 / 视觉互动，实验结果表明 CMM 在视觉推理问题上达到了最新的最优性能。

Sep, 2018

揭示视觉问答中交叉模态偏见：基于可能世界的因果视角 VQA 分析

本文介绍了一种同时减少 VQA 系统中视觉和语言偏差的方法，并推出了一种解释策略，最终在 VQA-CP v2 数据集上取得了比现有方法更好的结果。

May, 2023

EventLens: 利用事件感知预训练和跨模态链接提升视觉常识推理

通过引入事件感知预训练辅助任务和跨模态链接，并使用指令式提示和任务特定适配器来提高大型语言模型在视觉常识推理任务上的效果。

Apr, 2024

CausalVLR: 视觉语言因果推理工具箱和基准

CausalVLR is an open-source toolbox based on PyTorch containing a diverse set of causal inference methods for various visual-linguistic reasoning tasks, with available code and models for training and inference.

Jun, 2023

基于因果关系的跨模态表示学习在视觉和语言导航中的应用

提出了一种基于因果学习范式的统一框架 CausalVLN，通过建立关于视觉和语言的结构因果模型 (SCM) 的合理假设，并引入视觉和语言门路因果编码器，在训练和验证期间实现无偏特征表达，增强了智能体在不同环境中的泛化能力，并在三个 VLN 数据集上的实验证明了该方法的优越性和显著缩小了在已知和未知环境之间的性能差距。

Mar, 2024

一种基于多模态上下文推理的条件推断方法，适用于联合文本和视觉线索

提出了一种名为 ModCR 的多模态上下文推理方法，结合文本信息和图像信息进行上下文推理，相较于之前的基于预训练视觉 - 语言模型的方法，ModCR 将给定的文本抽象语义和客观图像信息作为上下文信息，在预训练的语言模型中嵌入它们进行上下文推理，并通过引入可学习的对齐前缀将多视角语义对齐信息与语言和图形结合起来，使得该语言模型更适用于联合文本和视觉线索的多模态推理场景。

May, 2023