CLEVRER：用于视频表示和推理的碰撞事件

ICLROct, 2019

CLEVRER：用于视频表示和推理的碰撞事件

CLEVRER: CoLlision Events for Video REpresentation and Reasoning

Kexin Yi, Chuang Gan, Yunzhu Li, Pushmeet Kohli, Jiajun Wu...

TL;DR介绍了一种新的视频数据集 CLEVRER，以组合描述、解释、预测和假设性问题的方式评估计算模型，结果表明现有的视觉推理模型在因果推理任务（解释性、预测性和假设性）方面表现不佳，需要在模型中融合语言输入和因果关系的理解。

Abstract

The ability to reason about temporal and causal events from videos lies at the core of human intelligence. Most video reasoning benchmarks, however, focus on pattern recognition from complex visual and language input, instead of on causal structure. We study the complementary problem, exploring the temporal and causal structures behind videos of objects with

causal reasoning video dataset reasoning tasks temporal structure clevrer

发现论文，激发创造

CLEVRER-Humans: 以人的方式描述物理和因果事件

构建能推理物理事件及其因果关系的机器对于与物质世界进行灵活交互至关重要。为了解决现有物理和因果推理基准的缺点，我们提出了一种视频推理数据集，以人类标签为基础，用于对物理事件的因果判断。

Oct, 2023

HySTER: 一个混合空间时间事件推理器

本文介绍 HySTER：一种可以理解视频中的物理事件的混合时空事件推理器，将深度学习和符号人工智能的推理能力和说明性相结合应用于 VideoQA 问题，采用一种基于时间、因果和物理规则的方法，并在 CLEVRER 数据集上展示出了最先进的问题回答准确性结果。

Jan, 2021

事件级别视觉问答的跨模态因果关系推理

本文提出了一种名为 CMCIR 的事件级别视觉问答框架，以实现稳健的因果感知视觉 - 语言问答，其利用因果干预方法发现视觉和语言两种模态的真实因果结构，并成功地在四个事件级别数据集上验证了其优越性。

Jul, 2022

通过动态视觉推理理解对象和事件的物理概念

本文提出了一种统一框架 - 动态概念学习者（DCL）用于从视频及自然语言文本中，对物理对象和事件进行建模，其中 DCL 采用轨迹提取器来追踪每个物体随时间的变化并将其表示为一种潜在目标中心的特征向量，并进一步将物体集成到图形网络中学习物体之间的动态交互关系，最终通过语义分析器解析问题并执行执行器来回答问题，该方法在 CLEVRER 数据集上实现了 state-of-the-art 的表现。

Mar, 2021

测量 CLEVRness：对视觉推理模型的黑盒测试

通过视觉问答框架和基于 CLEVR 的故障排除数据集，提出了一种双方游戏来评估视觉智能系统的推理能力，并探讨了数据驱动方法在没有利用数据集中的种种偏见的情况下是否可以进行推理。

Feb, 2022

程序性文本中实体和事件的因果推理

本研究提出 CREPE 作为第一个事件因果推理和实体状态的基准测试，并在其中发现大多数语言模型表现低迷，但通过将事件表示为编程语言，并在表示中注入实体和事件之间的因果关系，提高了模型的性能。

Jan, 2023

跨模态事件相关的视频问答中的推理

通过引入密集描述模态作为辅助信息，提出了一种新颖的端到端可训练模型，Event-Correlated Graph Neural Networks（EC-GNNs），以从三种模态（描述、视频和问题）中执行跨模态推理，并通过多步推理收集问题导向和事件相关证据。

Dec, 2023

CLEVR-X：自然语言解释的视觉推理数据集

本文介绍了一个基于机器学习的可视化问答生成自然语言解释过程的方法，使用 CLEVR-X 数据集进行自然语言解释的基线结果分析，以及研究了不同问题和不同数量的真实解释对自然语言生成质量的影响。

Apr, 2022

从表示到推理：面向视频问答的证据与常识推理

为了深化视频理解，包含描述、证据推理和常识推理等四类问题，我们提出了因果 - 视频问答任务及两步解决方案，发现最新 VideoQA 方法在描述方面表现强而在推理方面表现弱，希望 Causal-VidQA 能够引导视频理解研究从表示学习向深度推理发展。

May, 2022

因果推理遇见视觉表征学习：一项前瞻性研究

本文综述了现有的因果推理方法在视觉表征学习中的应用，探讨了当前方法和数据集的限制，并提出了因果推理算法基准的前景挑战、机会和未来研究方向，以更有效地实现可靠的视觉表征学习及相关应用。

Apr, 2022