PACS：用于物理视听常识推理的数据集

ECCVMar, 2022

PACS：用于物理视听常识推理的数据集

PACS: A Dataset for Physical Audiovisual CommonSense Reasoning

Samuel Yu, Peter Wu, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency

TL;DR通过构建音视频共同存在的数据集 PACS，我们首次衡量了人类执行物理力学任务的准确性，并证明了多模态（多感官）推理对于物理常识推理的重要性。

Abstract

In order for ai to be safely deployed in real-world scenarios such as hospitals, schools, and the workplace, it must be able to robustly reason about the physical world. Fundamental to this reasoning is physical common

ai physical common sense multimodal reasoning audiovisual benchmark human performance

发现论文，激发创造

PIQA：自然语言中关于物理常识的推理

本文提出了物理常识推理的任务以及相应的基准数据集 PIQA。我们指出现有的预训练模型在该领域的表现较差，探究了缺失的知识维度，并为未来的研究提供了机会。

Nov, 2019

从识别到认知：视觉常识推理

该研究论文旨在推进计算机视觉模型的视觉常识推理能力。研究者针对这一目标，提出一项包含 290k 多选题的新数据集 VCR，并使用基于对抗匹配的方法进行添加问题。通过引入新的推理引擎 - Recognition to Cognition 网络（R2C），该文章对计算机视觉模型的性能进行了分析，并提出未来研究的方向。

Nov, 2018

物体音视常识推理的解耦反事实学习

我们提出了一种物理视听常识推理的解缚对抗学习方法 (DCL)，旨在根据视频和音频输入推断物体的物理常识，并模拟人类的推理能力。我们的方法将视频解耦为静态和动态因素，并引入反事实学习模块来增强模型的推理能力。在实验中，我们展示了我们的方法改进了基线方法并取得了最先进的性能。

Oct, 2023

关于视觉和语言模态下的行动推理：一项综述

本文综述了在视觉和语言领域中，关于 “行动与变化推理” 的先前研究任务、基准数据集、各种技术和模型以及它们的表现。最后，我们总结了我们的主要收获，讨论了当前这个研究领域面临的挑战，并概述了未来研究的潜在方向。

Jul, 2022

在动态音视频场景中学习回答问题

本文研究了 Audio-Visual Question Answering（AVQA）任务，提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题，结果表明我们的方法优于现有的 A-V 和 AVQA 方法。

Mar, 2022

用反常识情境评估物理推理能力

通过创建 CConS 数据集，我们研究物理常识如何影响语境化尺寸比较任务，并测试多个遮蔽语言模型和生成模型的能力，结果表明大型语言模型可以使用前置词推断大小关系，但他们因其固有的物理常识而无法使用动词，从而做出错误的判断

Jun, 2023

ContPhy: 从视频中学习和推理连续物理概念

我们引入了连续物理数据集（ContPhy），这是一个用于评估机器物理常识的新型基准。通过涵盖不同场景中的多样化物理属性推理以及对应的动力学预测，ContPhy 补充了现有的物理推理基准。我们评估了一系列 AI 模型，并发现它们在 ContPhy 上仍然难以达到令人满意的性能，这表明当前的 AI 模型在连续物体方面仍然缺乏物理常识，尤其是软体，并证明了该数据集的价值。我们还引入了一种基于粒子的物理动力学模型与最近的大型语言模型相结合的神谕模型（ContPRO），该模型结合了两种模型的优势，即精确的动力学预测和可解释的推理。ContPhy 旨在促进在不同物理场景中的感知和推理的进步，缩小人类和机器智能在理解物理世界方面的差距。项目页面：这个 https URL

Feb, 2024

VideoPhy: 视频生成中的物理常识评估

通过创建一个基准测试集 VideoPhy，我们评估了现有的文本到视频生成模型是否能符合真实世界活动的物理常识，结果显示这些模型缺乏生成符合文字提示和物理规律视频的能力，从而揭示了视频生成模型远未准确模拟物理世界的程度。

Jun, 2024

物理推理 AI 的基准测试

物理推理是开发通用人工智能系统的关键因素，本论文旨在提供现有基准的综述及其解决方法，并提出了衡量人工智能系统物理推理能力的统一观点。我们选择了设计用于测试物理推理任务中算法性能的基准。虽然每个选定的基准都提出了独特的挑战，但它们的集合为具有各种物理推理概念可测量技能水平的通用 AI 代理提供了全面的实践场所。因此，这些基准集合相较于旨在模拟现实世界并交织其复杂性和许多概念的综合基准具有优势。我们将所呈现的一组物理推理基准分为子类别，以首先在这些组上对更窄的通用 AI 代理进行测试。

Dec, 2023

基于照片的自然语言推理语料库

本文介绍了一个新数据集，包含 107292 个英语句子与网络照片的组合，任务是确定自然语言字幕是否与一对照片相符。数据要求包括数量、比较和关系等组成性联合推理的定性分析以及强大的视觉推理方法的评估。

Nov, 2018