Winograd Schema Challenge 的惊人强大技巧

ACLMay, 2019

Winograd Schema Challenge 的惊人强大技巧

A Surprisingly Robust Trick for Winograd Schema Challenge

Vid Kocijan, Ana-Maria Cretu, Oana-Maria Camburu, Yordan Yordanov, Thomas Lukasiewicz

TL;DR本文探讨了在类似代词消歧问题的数据集上进行微调对于三种语言模型在 Winograd Schema Challenge (WSC) 数据集上表现的影响，并生成了一个大规模的无监督 WSC-like 数据集，通过细调 BERT 语言模型在引入的及 WSCR 数据集上，WSC273 和 WNLI 的总体准确率分别达到了 72.5% 和 74.7%，相较于先前的最优方案提高了 8.8% 和 9.6%。此外，我们的微调模型在 Denis Trichelair 等人（2018）引入的 “复杂” 子集上也更加稳健。

Abstract

The winograd schema challenge (WSC) dataset WSC273 and its inference counterpart WNLI are popular benchmarks for natural language understanding and →

winograd schema challenge language models fine-tuning natural language understanding commonsense reasoning

发现论文，激发创造

Winograd 模式挑战的击败

本文回顾了 Winograd Schema Challenge 的历史并讨论了过去十年 WSC 研究中的持久贡献。我们讨论了为 WSC 开发的各种数据集的重要性以及研究社区对评估 AI 系统智能的代理任务作用的更深入理解。

Jan, 2022

WinoGrande：规模化的敌对 Winograd 模式挑战

介绍了一种新的数据集 WinoGrande，有效性在处理机器通用感性问题方面被证明，但同时提出存在机器学习算法数据集的偏见问题，需要进行算法级别的 “偏见减少” 来基本获得良好的机器通用感性问题解决方案。

Jul, 2019

探索无监督预训练和句子结构建模用于 Winograd Schema Challenge

本文介绍了 Winograd Schema Challenge 中采用最新技术取得的最高准确率，并探讨了共同建模句子结构、利用先进的预训练模型学习知识以及进行微调等方法对性能的影响，并分析表明微调在较简单的联想问题中更有利，而建模句子结构则对较困难的非联想子集更有帮助。同时，本文还表明，更大的微调数据集可以带来更好的性能，这也表明了未来注释更多 Winograd 模式句子方面的潜在价值。

Apr, 2019

对 Winograd-Style 任务数据集重叠的分析

通过研究神经语言模型在 Winograd Schema Challenge 任务中的表现，我们发现测试实例与神经语言模型训练语料库之间的重叠对模型分类准确性具有重要影响。我们发现现有训练语料库与测试实例的重叠具有较高比例，导致模型在具有最小重叠的实例上表现显著下降。基于这些结果，我们构建了 KnowRef-60K 数据集，它是至今为止最大的 Winograd Schema Challenge 风格的常识推理语料库，并且与当前的预训练语料库重叠比例显著降低。

Nov, 2020

描绘模糊性：对 Winograd 模式挑战的视觉转折

利用 GPT-4 生成提示并使用 Diffusion Attentive Attribution Maps (DAAM) 进行热图分析，我们引入了一个新的数据集 WinoVis，用于在多模态环境中对文本到图像模型进行代词消岐。通过对连续模型版本的评估，我们发现尽管有逐步的进展，Stable Diffusion 2.0 在 WinoVis 上的准确率仅为 56.7％，只略微超过随机猜测。进一步的错误分析确定了未来研究的重要方向，旨在提升文本到图像模型在解释和与复杂视觉世界交互的能力。

May, 2024

Winograd 模式挑战数据集和方法综述

本文综述了 Winograd Schema Challenge，介绍了它的常识推理和自然语言理解挑战，并回顾了自提出以来已发布的数据集和方法，它是一种包含高度歧义代词的一对句子，需要深刻理解文本内容和情景以正确解决。

Apr, 2020

WSC+: 基于专家树的增强 Winograd Schema 挑战

提出了 Tree-of-Experts (ToE) 这一新的提示方法，以增强 Winograd Schema Challenge 中问题的生成，引入了包含 3,026 个由 Large Language Models 生成的句子的新数据集 WSC+，并通过将新的 'ambiguous' 和 'offensive' 类别纳入 WSC 框架中，提供了对模型过度自信与偏见的更深入洞察。分析揭示了生成 - 评估一致性的细微差别，表明与其他模型生成的问题相比，LLMs 在评估自己生成的问题时并不总是表现出色。在 WSC + 上，GPT-4，最好的 LLM，准确率为 68.7%，明显低于人类基准的 95.1%。

Jan, 2024

语言模型和人类对 Winograd Schema 扰动的敏感性

大规模预训练语言模型是最近在 Winograd Schema Challenge 上表现提高的主要驱动力，但我们通过一个新的诊断数据集表明，这些模型对最小程度影响人类理解的 Winograd 例子的语言扰动是敏感的。我们的结果突出了人类和语言模型之间的有趣差异：语言模型对数字或性别的替换和同义词置换更敏感，而人类在其预测中更稳定和一致，维持更高的绝对性能，在非联想实例上表现更好。总体而言，人类比开箱即用的模型更正确，在错误的原因上有时模型是正确的。最后，我们展示了在大规模的专门任务数据集上微调可以解决这些问题。

May, 2020

普遍化温纳格术式及其情境性

我们提出了一种新颖的方法，将 Winograd 模式广义化，从而使其类似于 Bell-CHSH 测量方案，并通过人们在众包平台上收集的人类判断报告了一个这种广义模式的实例。所得模型违反了 Bell-CHSH 不等式 0.192，从而在指代消解设置中展示出了上下文相干性。

Aug, 2023

回到起点：Winograd 模式中的工件检测、训练和常识分离

本文主要探讨了基于预训练语言模型的方法在 Winograd Schema（WS）测试中的表现提升是否导致了常识推理能力的提高。文章指出当前 WS 的评估方法不够优化，提出了一种基于双子句的新评估方法，并提出了两种新的基准方法以证明 WS 基准的局限性。文章采用无监督学习方法对常识推理能力进行了评估，发现在严格的评估条件下，WS 基准的性能只是因为在训练 WS 模型时使用了监督，无法支持所需的所有常识推理技能和知识。

Apr, 2021