每个答案都重要：用概率测度评估常识

ACLJun, 2024

每个答案都重要：用概率测度评估常识

Every Answer Matters: Evaluating Commonsense with Probabilistic Measures

Qi Cheng, Michael Boratko, Pranay Kumar Yelugam, Tim O'Gorman, Nalini Singh...

TL;DR大型语言模型在常识任务上展现了令人印象深刻的性能；然而，这些任务通常作为多项选择题提出，使模型能够利用系统偏差。常识也具有概率性，存在多个正确答案。为此，我们提出了一种新的生成任务 - 常识框架补全（CFC），通过多个开放式生成来评估常识。我们还提出了与人类判断强相关的概率评估方法。在我们的数据集上，人类的表现远远超过强大的语言模型基线，表明这种方法既具有挑战性，也是对机器常识有用的评估方法。

Abstract

large language models have demonstrated impressive performance on commonsense tasks; however, these tasks are often posed as multiple-choice questions, allowing models to exploit systematic biases. →

large language models commonsense probabilistic evaluation common sense machine common sense

发现论文，激发创造

常识推理的简单方法

本文提出一种使用无监督学习、基于语言模型的神经网络常识推理的简单方法，通过对大量未标记数据的训练，优化单选题的得分，获得了很好的测试成绩，没有使用昂贵的注释知识库或手工特征工程。

Jun, 2018

CommonGen: 一个面向生成通识常识推理的受限文本生成挑战

本文介绍了一个基于 CommonGen 任务的数据集，用于评估预训练语言模型的生成常识推理能力，任务的难点在于需要进行关系推理并具有通用性，实验结果表明目前最先进的文本生成模型与人类表现存在很大差距，且生成的常识推理能力可以用于提高 Downstream 任务的性能。

Nov, 2019

JECC: 由互動小說衍生的常識推理任務

本文提出了一种新的常识推理数据集，基于人类的互动小说游戏通过游戏演示，提供各种推理类型的自然混合，并需要多次推理。该数据集较以往的数据集需要更少的人工干预，实验表明，与人类专家相比，该数据集对以前的机器阅读模型具有显着的 20％性能差距。

Oct, 2022

大型语言模型中常识知识的系统调查

本研究通过对大量数据进行训练的语言模型的零样本和少样本常识评估，旨在更好地理解这种模型学习常识知识的程度，结果显示预训练的语言模型在没有任务特定监督的情况下获取常识知识的能力受到了很大的限制。更大的模型或少量评估也无法达到人类常识水平。

Oct, 2021

可微的开放式常识推理

提出 DrFact 模型作为 OpenCSR 的一种有效途径，在常识推理基准测试中表现良好，突破了多选题限制的限制，实现对无预定义问题的回答。

Oct, 2020

提供常识推理任务的对比解释

本研究证明了在使用预训练语言模型进行通识推理任务时，使用对比性的解释来完成解释提示可以提高性能并获得更准确的结果，同时提高人类可理解性。

Jun, 2021

一种基于预备知识库的常识推理教授预训练模型的初步方法

通过利用 ConceptNet 中的结构化知识，构造逻辑形式并生成常识性逻辑推理的多项选择题进行训练，我们提出了一种简单而有效的方法来教授预训练模型常识性推理，实验结果表明，这种训练可以使预训练模型在需要常识性推理的任务上表现稳定提升，特别是在少样本学习设置下。

Sep, 2019

解释自己！利用语言模型进行常识推理

使用自然语言序列和突出的注释收集人类的常识推理解释，形成一个名为 CoS-E 的新数据集。利用 CoS-E 训练语言模型，在 Commonsense Auto-Generated Explanation (CAGE) 框架中生成解释，可用于训练和推理。实验结果表明能够有效利用语言模型进行常识推理。

Jun, 2019

预训练语言模型在常识知识推理和生成中的应用：综述

本文调查了预先训练模型在常识推理和生成任务上的表现，探讨了最新研究的优劣势，并提出未来的研究方向。

Jan, 2022

评估预训练语言模型中的常识

本研究考察了 GPT、BERT、XLNet 和 RoBERTa 等四个基于预训练语言模型的通感知能力，通过在七个具有挑战性的基准测试中测试他们，在促进模型通感知能力方面，语言建模及其变体是有效的目标，而双向上下文和更大的训练集是额外的加分项。此外，我们发现目前的模型在需要更多必要推理步骤的任务上表现不佳。最后，我们通过制作相关的双重测试用例来测试模型的鲁棒性。有趣的是，模型在这些测试用例上表现混乱，这表明它们只是在表面上学习通感知而不是深层次的知识。我们公开了一个名为 CATs 的测试集，以供未来的研究使用。

Nov, 2019