视频问答的视觉因果场景细化

May, 2023

Visual Causal Scene Refinement for Video Question Answering

Yushen Wei, Yang Liu, Hong Yan, Guanbin Li, Liang Lin

TL;DR本文提出一种名为 VCSR 的跨模态因果关系推理框架，通过因果分析发现视频中关键的因果事件，解决了现有视频问答方法在识别视觉证据和问题方面的失败。实验表明，该方法在视频问答中表现出卓越的性能。

Abstract

Existing methods for video question answering (VideoQA) often suffer from spurious correlations between different modalities, leading to a failure in identifying the dominant visual evidence and the intended question. Moreover, these methods function as black boxes, making it difficult

video question answering visual causal scene relational reasoning causal analysis cross-modal

发现论文，激发创造

跨模态问答中因果感知的视觉场景发现

本文提出了一个名为 CMQR 的事件级视觉问答推理框架，旨在显式地发现时间因果结构并通过因果干预来减轻视觉虚假相关性。实验结果表明，CMQR 发现了视觉因果结构并实现了鲁棒的问题推理。

Apr, 2023

事件级别视觉问答的跨模态因果关系推理

本文提出了一种名为 CMCIR 的事件级别视觉问答框架，以实现稳健的因果感知视觉 - 语言问答，其利用因果干预方法发现视觉和语言两种模态的真实因果结构，并成功地在四个事件级别数据集上验证了其优越性。

Jul, 2022

视觉问答中的场景图推理

我们提出了一种基于场景图和强化学习的方法来解决视觉问答任务，实验结果表明该方法在 GQA 数据集上已达到接近人类水平的效果。

Jul, 2020

面向事件级别视频问答的语义感知动态回顾 - 预测推理

本文提出了一种语义感知的动态回顾 - 前瞻推理方法，用于视频问答，通过使用问题的语义角色标注（SRL）结构，实现了基于语义连接的复杂推理，在 TrafficQA 数据集上实验结果显示，相较于之前的最先进模型，该方法实现了卓越的性能提升。

May, 2023

利用先验视觉关系的场景图推理用于视觉问答

使用结构化可视化表征 —— 场景图，通过可视上下文和语言因素进行关系编码，使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题，从而在 GQA 数据集上实现了 54.56％的最高准确率。

Dec, 2018

从表示到推理：面向视频问答的证据与常识推理

为了深化视频理解，包含描述、证据推理和常识推理等四类问题，我们提出了因果 - 视频问答任务及两步解决方案，发现最新 VideoQA 方法在描述方面表现强而在推理方面表现弱，希望 Causal-VidQA 能够引导视频理解研究从表示学习向深度推理发展。

May, 2022

跨模态事件相关的视频问答中的推理

通过引入密集描述模态作为辅助信息，提出了一种新颖的端到端可训练模型，Event-Correlated Graph Neural Networks（EC-GNNs），以从三种模态（描述、视频和问题）中执行跨模态推理，并通过多步推理收集问题导向和事件相关证据。

Dec, 2023

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022

透过两层认知的因果推理，提高视觉问答中的泛化能力

利用认知路径的 VQA（CopVQA）通过强调因果推理因素来改善多模态预测，从而支持 VQA 中的概括推理。

Oct, 2023

视频问答的不变基础

使用一种新的学习框架，稳定视频问答模型中的非关键信息，保留关键信息，提高模型推理能力。

Jun, 2022