CRoW: 基于真实世界任务的常识推理基准

EMNLPOct, 2023

CRoW: 基于真实世界任务的常识推理基准

CRoW: Benchmarking Commonsense Reasoning in Real-World Tasks

Mete Ismayilzada, Debjit Paul, Syrielle Montariol, Mor Geva, Antoine Bosselut

TL;DR近期在自然语言处理 (NLP) 常识推理研究领域，已经取得了大量新的数据集和基准（benchmark）。然而，这些数据集中的大部分在人工场景中构建常识推理挑战，不反映真实世界 NLP 系统所设计用于解决的任务。本文提出了 CRoW，这是一个手动筛选的多任务基准，用于评估模型在六个真实世界 NLP 任务中应用常识推理的能力。CRoW 使用多阶段数据收集流程构建，通过常识违规扰动重写现有数据集的样例。我们使用 CRoW 研究 NLP 系统在常识知识的不同维度（如物理、时间和社交推理）上的表现。我们发现，在 CRoW 上评估 NLP 系统与人类相比存在显著的性能差距，这表明在真实任务环境中，常识推理远未解决。我们将数据集和排行榜提供给研究社区。

Abstract

Recent efforts in natural language processing (nlp) commonsense reasoning research have yielded a considerable number of new datasets and benchmarks. However, most of these datasets formulate →

commonsense reasoning nlp benchmark crow real-world nlp tasks

发现论文，激发创造

CREAK: 基于实体知识的常识推理数据集

引入了一个关于实体知识和常识推理的测试平台 CREAEK，在测试中模型需要融合实体知识和常识推理，该研究的实验结果表明，现有的基础模型在 CREAK 上的表现并不佳，CREAK 提供了一种评估自然语言理解模型的独特方法，测试的内容包括提取事实信息和隐含的常识知识。

Sep, 2021

COM2SENSE：具备互补句子的常识推理基准

本文旨在探讨预训练语言模型在常识推理数据集中的可靠性和全面性，并提出了一个新的包含自然语言真 / 假语句对的常识推理基准数据集，通过对不同维度的领域的知识、推理场景以及数学的设计来促进常识能力的系统分析，并设计了成对精度度量标准来可靠地衡量代理的常识推理能力。实验结果表明，我们最强的基线模型在微调后达到了约 71％的标准准确性和约 51％的成对准确性，远低于人类表现。

Jun, 2021

评估计算机常识的理论基础基准

本文提出了一个名为 TG-CSR 的具有理论基础的通识常识推理基准，该基准旨在评估通识常识的各种方面，并基于少量的训练和验证示例进行学习。通过初步的测试结果表明，该基准对于设计用于推理性 CSR 问题答案的先进语言表示模型来说是具有挑战性的。

Mar, 2022

SemEval-2020 任务 4 上 CS-NLP 团队对常识推理任务中最先进的自然语言处理深度学习架构的评估

本文介绍了 SemEval-2020 任务 4：Commonsense Validation and Explanation（ComVE）挑战中的常识推理任务，探讨了几种针对该任务的深度学习方法，并使用多选题式的分类方法来提高模型准确率。研究结果表明，我们的模型在三个子任务中表现良好，并在第二个子任务中获得了很高的排名。同时，我们使用了一种强大的生成模型进行了最后一个子任务的研究，现在还有许多相关的潜在研究方向。

May, 2020

常识推理的简单方法

本文提出一种使用无监督学习、基于语言模型的神经网络常识推理的简单方法，通过对大量未标记数据的训练，优化单选题的得分，获得了很好的测试成绩，没有使用昂贵的注释知识库或手工特征工程。

Jun, 2018

常识推理任务的合理性研究：Winograd Schema Challenge 和 SWAG 的案例研究

本研究论文研究现有的常识推理基准测试在实验设计方面存在的难题，提出了一种实验协议，分析了之前实验设计的威胁，以检验性能改进是否代表着通向通识系统的真正进展。

Nov, 2018

评估零样本通识推理的置信度而非困惑度

本文提出一种新的通识推理度量标准 ——Non-Replacement Confidence (NRC)，通过 Replaced Token Detection (RTD) 预训练目标在 PLMs 上进行推理，提高了两个通识推理基准数据集和七个通识问题回答数据集的零 - shot 表现。

Aug, 2022

UNICORN on RAINBOW: 新的多任务基准上的通用常识推理模型

通过引入新的多任务基准和一种新的评估方法，这篇论文研究了常识 AI 模型的泛化性能，并提出了一个新的普适的常识推理模型 ——UNICORN，已在 8 个流行的常识基准测试中取得最新的最佳表现。

Mar, 2021

解释自己！利用语言模型进行常识推理

使用自然语言序列和突出的注释收集人类的常识推理解释，形成一个名为 CoS-E 的新数据集。利用 CoS-E 训练语言模型，在 Commonsense Auto-Generated Explanation (CAGE) 框架中生成解释，可用于训练和推理。实验结果表明能够有效利用语言模型进行常识推理。

Jun, 2019

使用有效的评估数据集对常识知识库填充进行基准测试

本论文提出了一个新的大规模的数据集来评估神经模型在通识推理任务中的表现，并提出了一种基于图形的归纳式通识推理模型。实验结果表明，推广通识推理任务是一项困难的任务，训练时表现出高准确性的模型在评估集上表现不佳，与人类表现之间存在巨大的差距。

Sep, 2021