MECD:解锁视频推理中的多事件因果发现
介绍了一种新的视频数据集CLEVRER,以组合描述、解释、预测和假设性问题的方式评估计算模型,结果表明现有的视觉推理模型在因果推理任务(解释性、预测性和假设性)方面表现不佳,需要在模型中融合语言输入和因果关系的理解。
Oct, 2019
本文探讨了从视觉信号中学习上下文因果关系的可能性,提出了高质量数据集Vis-Causal,并展示了通过好的语言和视觉表征模型和充足的训练信号,可以从视频中自动发现有意义的因果知识。
Dec, 2020
该研究提出了一种基于因果关系的视频时刻检索框架,利用Deconfounded Cross-modal Matching(DCM)方法去除时刻位置的混淆效应,并在考虑所有可能的目标位置的情况下,公平地将查询和视频内容纳入模型中以提高准确性和泛化性能。
Jun, 2021
该论文提出了一种依赖于人类直觉的可视化分析方法,结合逻辑因果关系, 发现有时延迟的因果关系,并将它们聚合成为可视化流程图,以便在不同的科学领域得到应用。
Mar, 2023
本文提出了一个名为CMQR的事件级视觉问答推理框架,旨在显式地发现时间因果结构并通过因果干预来减轻视觉虚假相关性。实验结果表明,CMQR发现了视觉因果结构并实现了鲁棒的问题推理。
Apr, 2023
本文提出一种名为VCSR的跨模态因果关系推理框架,通过因果分析发现视频中关键的因果事件,解决了现有视频问答方法在识别视觉证据和问题方面的失败。实验表明,该方法在视频问答中表现出卓越的性能。
May, 2023
本文提出了一种新的任务,即在事件序列(即上下文)中检测常识因果推论,称为上下文常识因果推理,并设计了一个零-shot框架:COLA(上下文常识因果关系推理器)来解决任务;实验结果表明,COLA可以比基线更准确地检测常识因果关系。
May, 2023
深度学习和因果发现相结合,我们发现在对话和视频中学习因果结构和表示面临许多挑战,这些数据形式被定义为“不确定数据”,具有多结构数据和多值表示特征。为了解决数据集缺口,我们发布了两个高质量的数据集,Causalogue和Causaction,分别包含带有因果注释的文本对话样本和视频动作样本。此外,由于多结构数据和多值表示的存在,方法上产生了一个缺口,打破了所有当前方法的假设,使得它们在不确定数据上变得不可行。为此,我们提出了一个概率模型作为基线,包含了三个特定的亮点来解决这个缺口:1)利用非固定因果结构下噪声项独立性建立表示的因果条件,2)将因果强度视为潜变量,并在相关空间中测量重建损失,3)估计潜在混淆因子的影响。这些亮点使得概率模型能够克服多结构数据和多值表示带来的挑战,为潜在混淆因子的扩展铺平了道路。全面实验评估了因果结构、因果表示和混淆解缠结的基线结果。
Jan, 2024
Causal Pretraining explores supervised learning to discover causal relationships from time series data, demonstrating that performance increases with data and model size and suggesting the potential for a foundation model for causal discovery.
Feb, 2024
利用卡通片的独特特性构建了新的挑战性因果Why-QA数据集CausalChaos!,其中包含了较长的因果链并嵌入动态交互和视觉中,模型可以通过动画原理解决更具挑战性且明确定义的因果关系问题。同时,我们的研究还指出了更先进/明确的因果关系建模和视觉和语言的联合建模作为未来努力的重点领域。
Apr, 2024