常识推理任务的合理性研究：Winograd Schema Challenge 和 SWAG 的案例研究

Nov, 2018

常识推理任务的合理性研究：Winograd Schema Challenge 和 SWAG 的案例研究

How Reasonable are Common-Sense Reasoning Tasks: A Case-Study on the Winograd Schema Challenge and SWAG

Paul Trichelair, Ali Emami, Adam Trischler, Kaheer Suleman, Jackie Chi Kit Cheung

TL;DR本研究论文研究现有的常识推理基准测试在实验设计方面存在的难题，提出了一种实验协议，分析了之前实验设计的威胁，以检验性能改进是否代表着通向通识系统的真正进展。

Abstract

Recent studies have significantly improved the state-of-the-art on common-sense reasoning (CSR) benchmarks like the winograd schema challenge (WSC) and →

common-sense reasoning winograd schema challenge swag benchmark experiment protocols

发现论文，激发创造

使用答案集编程来处理 Winograd 模式挑战中的常识推理

本文通过 Answer Set Programming (ASP) 编码建立在图形子图同构上的方法尝试解决 Winograd Schema Challenge (WSC)，并成功解决 240 个问题，提供了问题和相关常识知识的基于图形的表示。

Jul, 2019

通识推理知识狩猎框架

本文介绍了一个自动系统，通过知识搜寻模块从网络上获取证据，利用搜索引擎返回的结果进行知识抽取和分类，对 Winograd Schema Challenge (WSC) 等常识推理任务进行求解，相比最佳方法提高了 0.21 的 F1 值，在 COPA 任务中也具有竞争力。

Oct, 2018

Winograd 模式挑战数据集和方法综述

本文综述了 Winograd Schema Challenge，介绍了它的常识推理和自然语言理解挑战，并回顾了自提出以来已发布的数据集和方法，它是一种包含高度歧义代词的一对句子，需要深刻理解文本内容和情景以正确解决。

Apr, 2020

回到起点：Winograd 模式中的工件检测、训练和常识分离

本文主要探讨了基于预训练语言模型的方法在 Winograd Schema（WS）测试中的表现提升是否导致了常识推理能力的提高。文章指出当前 WS 的评估方法不够优化，提出了一种基于双子句的新评估方法，并提出了两种新的基准方法以证明 WS 基准的局限性。文章采用无监督学习方法对常识推理能力进行了评估，发现在严格的评估条件下，WS 基准的性能只是因为在训练 WS 模型时使用了监督，无法支持所需的所有常识推理技能和知识。

Apr, 2021

泰国 Winograd Schema：泰语常识推理基准

通过使用泰语 Winograd 模式集合，对流行的大型语言模型在泰语上的表现进行评估，揭示了它们的优势、局限性，并为当前技术发展提供了一些见解，结果表明尽管 GPT-4 和 Claude-3-Opus 等模型在英语上达到了高准确度，但它们在泰语上的性能显著下降，突出了对多语言常识推理的进一步改进的需求。

May, 2024

WinoGrande：规模化的敌对 Winograd 模式挑战

介绍了一种新的数据集 WinoGrande，有效性在处理机器通用感性问题方面被证明，但同时提出存在机器学习算法数据集的偏见问题，需要进行算法级别的 “偏见减少” 来基本获得良好的机器通用感性问题解决方案。

Jul, 2019

CRoW: 基于真实世界任务的常识推理基准

近期在自然语言处理 (NLP) 常识推理研究领域，已经取得了大量新的数据集和基准（benchmark）。然而，这些数据集中的大部分在人工场景中构建常识推理挑战，不反映真实世界 NLP 系统所设计用于解决的任务。本文提出了 CRoW，这是一个手动筛选的多任务基准，用于评估模型在六个真实世界 NLP 任务中应用常识推理的能力。CRoW 使用多阶段数据收集流程构建，通过常识违规扰动重写现有数据集的样例。我们使用 CRoW 研究 NLP 系统在常识知识的不同维度（如物理、时间和社交推理）上的表现。我们发现，在 CRoW 上评估 NLP 系统与人类相比存在显著的性能差距，这表明在真实任务环境中，常识推理远未解决。我们将数据集和排行榜提供给研究社区。

Oct, 2023

评估计算机常识的理论基础基准

本文提出了一个名为 TG-CSR 的具有理论基础的通识常识推理基准，该基准旨在评估通识常识的各种方面，并基于少量的训练和验证示例进行学习。通过初步的测试结果表明，该基准对于设计用于推理性 CSR 问题答案的先进语言表示模型来说是具有挑战性的。

Mar, 2022

WinoWhy: 用于回答温罗德图谱挑战的基本常识知识的深度诊断

该论文首次对回答 Winograd Schema Challenge 所需的基本常识知识进行了全面分类，它们被分为六类主要知识类别。同时，通过开发新任务 WinoWhy，论文证明了预训练语言表示模型依旧存在缺陷。

May, 2020

常识推理的简单方法

本文提出一种使用无监督学习、基于语言模型的神经网络常识推理的简单方法，通过对大量未标记数据的训练，优化单选题的得分，获得了很好的测试成绩，没有使用昂贵的注释知识库或手工特征工程。

Jun, 2018