CLEVRER-Humans: 以人的方式描述物理和因果事件
介绍了一种新的视频数据集 CLEVRER,以组合描述、解释、预测和假设性问题的方式评估计算模型,结果表明现有的视觉推理模型在因果推理任务(解释性、预测性和假设性)方面表现不佳,需要在模型中融合语言输入和因果关系的理解。
Oct, 2019
本研究提出 CREPE 作为第一个事件因果推理和实体状态的基准测试,并在其中发现大多数语言模型表现低迷,但通过将事件表示为编程语言,并在表示中注入实体和事件之间的因果关系,提高了模型的性能。
Jan, 2023
本文介绍 HySTER:一种可以理解视频中的物理事件的混合时空事件推理器,将深度学习和符号人工智能的推理能力和说明性相结合应用于 VideoQA 问题,采用一种基于时间、因果和物理规则的方法,并在 CLEVRER 数据集上展示出了最先进的问题回答准确性结果。
Jan, 2021
该论文介绍了一种基于真实世界人类推断信息的诊断数据集 ECHo,旨在通过理论设计闭环链来评估当前人工智能系统的信息推理能力。该系统在零 - shot 视觉和语言理解中融合了各类大型基础模型,并进一步通过三个不同的任务来证明 ECHo 作为一个挑战性的数据集,可以揭示信息推理中的缺陷和不一致性。
May, 2023
通过细致而统一的因果关系定义以及涉及人类与 / 或物体之间相互作用的显式因果图,本论文构建了一个名为 CELLO 的新数据集,并表明当前的大规模视觉语言模型在因果推理任务上依然面临困难,但可以从提出的因果启发式思维提示策略 CELLO-CoT 中获得显著的收益。
Jun, 2024
本文提出了一种统一框架 - 动态概念学习者(DCL)用于从视频及自然语言文本中,对物理对象和事件进行建模,其中 DCL 采用轨迹提取器来追踪每个物体随时间的变化并将其表示为一种潜在目标中心的特征向量,并进一步将物体集成到图形网络中学习物体之间的动态交互关系,最终通过语义分析器解析问题并执行执行器来回答问题,该方法在 CLEVRER 数据集上实现了 state-of-the-art 的表现。
Mar, 2021
本文介绍了一种新的精细化因果推理数据集,并在自然语言处理中提出了一系列新的预测任务,例如因果检测、事件因果提取和因果问答。作者通过大量实验和分析表明,数据集中的复杂关系对最先进的方法带来了独特的挑战,并强调了潜在的研究机会,特别是在发展 "因果思维" 方法方面。
Apr, 2022
通过视觉问答框架和基于 CLEVR 的故障排除数据集,提出了一种双方游戏来评估视觉智能系统的推理能力,并探讨了数据驱动方法在没有利用数据集中的种种偏见的情况下是否可以进行推理。
Feb, 2022
本文提出了一种名为 CMCIR 的事件级别视觉问答框架,以实现稳健的因果感知视觉 - 语言问答,其利用因果干预方法发现视觉和语言两种模态的真实因果结构,并成功地在四个事件级别数据集上验证了其优越性。
Jul, 2022
利用大型语言模型 (LLM) 的最新进展,我们提出了首个事件因果识别方法,从 GPT 中设计特定提示以提取事件因果关系。根据 GLUCOSE 数据集中的人工注释事件因果关系,我们的技术表现与监督模型相当,同时易于推广到不同类型和长度的故事。提取的因果关系在故事质量评估上带来了 5.7% 的提升和 8.7% 的故事视频文本对齐改进,我们的发现表明事件因果在计算机故事理解中有巨大的潜力。
Nov, 2023