COM2SENSE：具备互补句子的常识推理基准

ACLJun, 2021

COM2SENSE：具备互补句子的常识推理基准

COM2SENSE: A Commonsense Reasoning Benchmark with Complementary Sentences

Shikhar Singh, Nuan Wen, Yu Hou, Pegah Alipoormolabashi, Te-Lin Wu...

TL;DR本文旨在探讨预训练语言模型在常识推理数据集中的可靠性和全面性，并提出了一个新的包含自然语言真 / 假语句对的常识推理基准数据集，通过对不同维度的领域的知识、推理场景以及数学的设计来促进常识能力的系统分析，并设计了成对精度度量标准来可靠地衡量代理的常识推理能力。实验结果表明，我们最强的基线模型在微调后达到了约 71％的标准准确性和约 51％的成对准确性，远低于人类表现。

Abstract

commonsense reasoning is intuitive for humans but has been a long-term challenge for artificial intelligence (AI). Recent advancements in pretrained language models have shown promising results on several commonsense benchmark datasets. However, the reliability and comprehensiveness of

commonsense reasoning pretrained language models commonsense benchmark datasets adversarial model pairwise accuracy metric

发现论文，激发创造

推动 Transformer 在常识推理中的能力

介绍了如何利用当前的机器学习方法，通过知识迁移、模型集成和引入配对对比目标等方法，改进通用预训练语言模型在常识推理任务中，取得超过 15％的配对准确度和超过 8.7％的标准准确度的绝对增益。

Oct, 2023

CommonGen: 一个面向生成通识常识推理的受限文本生成挑战

本文介绍了一个基于 CommonGen 任务的数据集，用于评估预训练语言模型的生成常识推理能力，任务的难点在于需要进行关系推理并具有通用性，实验结果表明目前最先进的文本生成模型与人类表现存在很大差距，且生成的常识推理能力可以用于提高 Downstream 任务的性能。

Nov, 2019

自动常识推理基准：一项调查

论文概述了 AI commonsense benchmarks 的发展与应用、common sense 的本质及其在 AI 中的作用、构建 commonsense benchmarks 所服务的目标和理想特征。作者分析了现有 benchmark 的常见缺陷，调查了各种构建 commonsense benchmarks 的方法，总结了 139 个 commonsense benchmarks。然而，作者指出现有 benchmark 存在的空缺和 commonsense 推理的方面，并提出了未来的建议。

Feb, 2023

对话人工智能中克服单调常识推理的 ConvoSense

通过使用 GPT 编译了一个新的合成数据集 ConvoSense，在对话语境中进行常识推理，具有更大的上下文新颖性、更多的推理数量和推理所传达的详细信息丰富，使得针对对话的生成式常识模型在产生合理且具有高新颖性推理时优于之前的数据集训练的模型。据我们所知，ConvoSense 是首个以如此大规模提供如此多新颖推理的数据集。

Jan, 2024

常识推理的简单方法

本文提出一种使用无监督学习、基于语言模型的神经网络常识推理的简单方法，通过对大量未标记数据的训练，优化单选题的得分，获得了很好的测试成绩，没有使用昂贵的注释知识库或手工特征工程。

Jun, 2018

SemEval-2020 任务 4 上 CS-NLP 团队对常识推理任务中最先进的自然语言处理深度学习架构的评估

本文介绍了 SemEval-2020 任务 4：Commonsense Validation and Explanation（ComVE）挑战中的常识推理任务，探讨了几种针对该任务的深度学习方法，并使用多选题式的分类方法来提高模型准确率。研究结果表明，我们的模型在三个子任务中表现良好，并在第二个子任务中获得了很高的排名。同时，我们使用了一种强大的生成模型进行了最后一个子任务的研究，现在还有许多相关的潜在研究方向。

May, 2020

常识知识图谱上的逻辑查询复杂推理

通过从现有的常识知识图谱（CSKG）中采样多跳逻辑查询，并使用手工规则和大语言模型进行言语化，我们提出了 COM2（复杂常识）数据集，训练于此的语言模型在复杂推理能力方面取得了显著提升，从而在问题回答和生成常识推理的任务中表现出了增强的零样本性能，而无需昂贵的人工注释。

Mar, 2024

基于照片的自然语言推理语料库

本文介绍了一个新数据集，包含 107292 个英语句子与网络照片的组合，任务是确定自然语言字幕是否与一对照片相符。数据要求包括数量、比较和关系等组成性联合推理的定性分析以及强大的视觉推理方法的评估。

Nov, 2018

SituatedGen: 融合地理和时间背景的生成常识推理

研究了通识常识推理中的文本生成任务，提出了一种面向具体地理和时间背景下的对比句子生成的数据集及评价模型，并实验证明现有最先进的语言生成模型在推理的通识常识上仍然远远落后于人类表现。

Jun, 2023

CRoW: 基于真实世界任务的常识推理基准

近期在自然语言处理 (NLP) 常识推理研究领域，已经取得了大量新的数据集和基准（benchmark）。然而，这些数据集中的大部分在人工场景中构建常识推理挑战，不反映真实世界 NLP 系统所设计用于解决的任务。本文提出了 CRoW，这是一个手动筛选的多任务基准，用于评估模型在六个真实世界 NLP 任务中应用常识推理的能力。CRoW 使用多阶段数据收集流程构建，通过常识违规扰动重写现有数据集的样例。我们使用 CRoW 研究 NLP 系统在常识知识的不同维度（如物理、时间和社交推理）上的表现。我们发现，在 CRoW 上评估 NLP 系统与人类相比存在显著的性能差距，这表明在真实任务环境中，常识推理远未解决。我们将数据集和排行榜提供给研究社区。

Oct, 2023