语言模型和人类对 Winograd Schema 扰动的敏感性

ACLMay, 2020

语言模型和人类对 Winograd Schema 扰动的敏感性

The Sensitivity of Language Models and Humans to Winograd Schema Perturbations

Mostafa Abdou, Vinit Ravishankar, Maria Barrett, Yonatan Belinkov, Desmond Elliott...

TL;DR大规模预训练语言模型是最近在 Winograd Schema Challenge 上表现提高的主要驱动力，但我们通过一个新的诊断数据集表明，这些模型对最小程度影响人类理解的 Winograd 例子的语言扰动是敏感的。我们的结果突出了人类和语言模型之间的有趣差异：语言模型对数字或性别的替换和同义词置换更敏感，而人类在其预测中更稳定和一致，维持更高的绝对性能，在非联想实例上表现更好。总体而言，人类比开箱即用的模型更正确，在错误的原因上有时模型是正确的。最后，我们展示了在大规模的专门任务数据集上微调可以解决这些问题。

Abstract

Large-scale pretrained language models are the major driving force behind recent improvements in performance on the winograd schema challenge, a widely employed test of →

pretrained language models winograd schema challenge common sense reasoning linguistic perturbations fine-tuning

发现论文，激发创造

Winograd 模式挑战的击败

本文回顾了 Winograd Schema Challenge 的历史并讨论了过去十年 WSC 研究中的持久贡献。我们讨论了为 WSC 开发的各种数据集的重要性以及研究社区对评估 AI 系统智能的代理任务作用的更深入理解。

Jan, 2022

Winograd 模式挑战数据集和方法综述

本文综述了 Winograd Schema Challenge，介绍了它的常识推理和自然语言理解挑战，并回顾了自提出以来已发布的数据集和方法，它是一种包含高度歧义代词的一对句子，需要深刻理解文本内容和情景以正确解决。

Apr, 2020

回到起点：Winograd 模式中的工件检测、训练和常识分离

本文主要探讨了基于预训练语言模型的方法在 Winograd Schema（WS）测试中的表现提升是否导致了常识推理能力的提高。文章指出当前 WS 的评估方法不够优化，提出了一种基于双子句的新评估方法，并提出了两种新的基准方法以证明 WS 基准的局限性。文章采用无监督学习方法对常识推理能力进行了评估，发现在严格的评估条件下，WS 基准的性能只是因为在训练 WS 模型时使用了监督，无法支持所需的所有常识推理技能和知识。

Apr, 2021

Winograd Schema Challenge 的惊人强大技巧

本文探讨了在类似代词消歧问题的数据集上进行微调对于三种语言模型在 Winograd Schema Challenge (WSC) 数据集上表现的影响，并生成了一个大规模的无监督 WSC-like 数据集，通过细调 BERT 语言模型在引入的及 WSCR 数据集上，WSC273 和 WNLI 的总体准确率分别达到了 72.5% 和 74.7%，相较于先前的最优方案提高了 8.8% 和 9.6%。此外，我们的微调模型在 Denis Trichelair 等人（2018）引入的 “复杂” 子集上也更加稳健。

May, 2019

EvoGrad: 以人类对手为基础的 Winograd 模式挑战的动态方法

利用人工智能辅助技术，我们引入 EvoGrad 平台，拓展了 Winograd Schema Challenge 任务实例数量，从 182 个扩展到了 3,691 个，为多样化的常识推理数据集设定了新的基准。通过引入错误深度度量，我们评估了模型在动态任务中的稳定性。我们的研究结果凸显了 EvoGrad 提出的挑战：即使是表现最好的大型语言模型 GPT-3.5，在准确率上也只有 65.0％，平均错误深度为 7.2，与人类准确率 92.8％相比存在显著差距，这突出了模型的局限性和动态数据集的价值。

Feb, 2024

一个人机协作框架用于模式开发

提出了一个新的框架，通过将人类和机器的智能结合起来，合作设计新的 Winograd schemas，从而解决 Winograd Schema Challenge 中的人工智能问题。

Feb, 2024

准确的任务形式化对于 Winograd 模式评估至关重要

通过分析 Winograd Schema 挑战数据集的输入规范、损失函数、以及预训练模型参数的复用情况，本研究发现这些规范的改变是近期模型在该项挑战中精度飞跃的主要原因，而非模型推理能力的提升。此外，本研究还提出了多项技巧以缓解模型超参数的极端敏感性，并呼吁未来该领域的评测者们应该为评测任务制定更科学的评测规范，以减少规范决策对评测结果的影响。

Oct, 2020

泰国 Winograd Schema：泰语常识推理基准

通过使用泰语 Winograd 模式集合，对流行的大型语言模型在泰语上的表现进行评估，揭示了它们的优势、局限性，并为当前技术发展提供了一些见解，结果表明尽管 GPT-4 和 Claude-3-Opus 等模型在英语上达到了高准确度，但它们在泰语上的性能显著下降，突出了对多语言常识推理的进一步改进的需求。

May, 2024

普遍化温纳格术式及其情境性

我们提出了一种新颖的方法，将 Winograd 模式广义化，从而使其类似于 Bell-CHSH 测量方案，并通过人们在众包平台上收集的人类判断报告了一个这种广义模式的实例。所得模型违反了 Bell-CHSH 不等式 0.192，从而在指代消解设置中展示出了上下文相干性。

Aug, 2023

探索无监督预训练和句子结构建模用于 Winograd Schema Challenge

本文介绍了 Winograd Schema Challenge 中采用最新技术取得的最高准确率，并探讨了共同建模句子结构、利用先进的预训练模型学习知识以及进行微调等方法对性能的影响，并分析表明微调在较简单的联想问题中更有利，而建模句子结构则对较困难的非联想子集更有帮助。同时，本文还表明，更大的微调数据集可以带来更好的性能，这也表明了未来注释更多 Winograd 模式句子方面的潜在价值。

Apr, 2019