用反常识情境评估物理推理能力

ACLJun, 2023

Probing Physical Reasoning with Counter-Commonsense Context

Kazushi Kondo, Saku Sugawara, Akiko Aizawa

TL;DR通过创建 CConS 数据集，我们研究物理常识如何影响语境化尺寸比较任务，并测试多个遮蔽语言模型和生成模型的能力，结果表明大型语言模型可以使用前置词推断大小关系，但他们因其固有的物理常识而无法使用动词，从而做出错误的判断

Abstract

In this study, we create a CConS (Counter-commonsense Contextual Size comparison) dataset to investigate how physical commonsense affects the contextualized size comparison task; the proposed dataset consists of

ccons dataset contextualized size comparison language models physical commonsense verbs

发现论文，激发创造

POSQA：使用大小比较来探究 LLMs 的世界模型

通过提出 POSQA 数据集，我们研究了最新的大型语言模型的体现性理解，并发现即使是目前最大的语言模型在零样本设置下表现不佳，进一步通过高级提示技术和外部知识增强来提升它们的性能。我们调查了他们对真实世界理解的主要来源以及提示格式的影响，结果表明基于文本数据形成的语言模型对提示的表面形式容易受到欺骗和困惑，导致其与人类行为的契合性降低。

Oct, 2023

从视觉信号探索空间常识中未被书写的事物

本研究利用图像合成的方法，构建了一个专注于对象相对尺度和位置关系的空间常识基准，并证明相较于文本预训练模型，具有视觉信号的模型更能准确和持续地学习空间常识，从中获得的知识也可用于具有空间常识的自然语言理解任务。

Mar, 2022

动词物理学：动作和物体的相对物理知识

这篇论文提出了一种从非结构化自然语言文本中推断对象和行为的物理知识的方法，并将知识获取作为两个相关问题的联合推理，即学习对象对的相对物理知识和应用于这些对象对时行为的物理含义。经验证明，从语言中提取对象和行为的知识是可行的，并且不同类型知识的联合推理可以提高性能。

Jun, 2017

PROST: 物体的时空物理推理

我们提出了一个名为 PROST 的新探测数据集，用于探索物体的物理推理。通过分析我们发现，目前最先进的预训练模型在物理推理方面仍存在局限性，这表明预训练模型对于物理交互的理解能力受到了真实世界经验的限制，因此我们希望通过强调这些局限性来促进具有人类物理世界理解能力的模型的发展。

Jun, 2021

PACS：用于物理视听常识推理的数据集

通过构建音视频共同存在的数据集 PACS，我们首次衡量了人类执行物理力学任务的准确性，并证明了多模态（多感官）推理对于物理常识推理的重要性。

Mar, 2022

神经语言表征是否学习了物理常识？

本文研究了目前最先进的神经语言表示在物理常识推理方面的表现，结论显示，尽管神经语言模型在各种自然语言推理任务上表现出色，但在物理常识方面仍然只能学习到现有的明确规则和关联性。

Aug, 2019

PIQA：自然语言中关于物理常识的推理

本文提出了物理常识推理的任务以及相应的基准数据集 PIQA。我们指出现有的预训练模型在该领域的表现较差，探究了缺失的知识维度，并为未来的研究提供了机会。

Nov, 2019

COM2SENSE：具备互补句子的常识推理基准

本文旨在探讨预训练语言模型在常识推理数据集中的可靠性和全面性，并提出了一个新的包含自然语言真 / 假语句对的常识推理基准数据集，通过对不同维度的领域的知识、推理场景以及数学的设计来促进常识能力的系统分析，并设计了成对精度度量标准来可靠地衡量代理的常识推理能力。实验结果表明，我们最强的基线模型在微调后达到了约 71％的标准准确性和约 51％的成对准确性，远低于人类表现。

Jun, 2021

CommonGen: 一个面向生成通识常识推理的受限文本生成挑战

本文介绍了一个基于 CommonGen 任务的数据集，用于评估预训练语言模型的生成常识推理能力，任务的难点在于需要进行关系推理并具有通用性，实验结果表明目前最先进的文本生成模型与人类表现存在很大差距，且生成的常识推理能力可以用于提高 Downstream 任务的性能。

Nov, 2019

SituatedGen: 融合地理和时间背景的生成常识推理

研究了通识常识推理中的文本生成任务，提出了一种面向具体地理和时间背景下的对比句子生成的数据集及评价模型，并实验证明现有最先进的语言生成模型在推理的通识常识上仍然远远落后于人类表现。

Jun, 2023