普遍化温纳格术式及其情境性

Aug, 2023

Generalised Winograd Schema and its Contextuality

Kin Ian Lo, Mehrnoosh Sadrzadeh, Shane Mansfield

TL;DR我们提出了一种新颖的方法，将 Winograd 模式广义化，从而使其类似于 Bell-CHSH 测量方案，并通过人们在众包平台上收集的人类判断报告了一个这种广义模式的实例。所得模型违反了 Bell-CHSH 不等式 0.192，从而在指代消解设置中展示出了上下文相干性。

Abstract

ambiguities in natural language give rise to probability distributions over interpretations. The distributions are often over multiple ambiguous words at a time; a multiplicity which makes them a suitable topic for sheaf-theoretic models of →

ambiguities sheaf-theoretic models quantum contextuality coreference ambiguities winograd schema challenge

发现论文，激发创造

Winograd 模式挑战的击败

本文回顾了 Winograd Schema Challenge 的历史并讨论了过去十年 WSC 研究中的持久贡献。我们讨论了为 WSC 开发的各种数据集的重要性以及研究社区对评估 AI 系统智能的代理任务作用的更深入理解。

Jan, 2022

Winograd 模式挑战数据集和方法综述

本文综述了 Winograd Schema Challenge，介绍了它的常识推理和自然语言理解挑战，并回顾了自提出以来已发布的数据集和方法，它是一种包含高度歧义代词的一对句子，需要深刻理解文本内容和情景以正确解决。

Apr, 2020

利用 Sheaf 理论量子化的上下文性和 BERT 模型的指代歧义模型

本文构造了类量子的语境性指称，利用 sheaf 论证明了 BERT 在自然语言语料库中发现了丰富的群体语境性例子，这些例子为未来研究和将量子计算扩展到自然语言处理提供了可能性。

Aug, 2022

WinoGrande：规模化的敌对 Winograd 模式挑战

介绍了一种新的数据集 WinoGrande，有效性在处理机器通用感性问题方面被证明，但同时提出存在机器学习算法数据集的偏见问题，需要进行算法级别的 “偏见减少” 来基本获得良好的机器通用感性问题解决方案。

Jul, 2019

描绘模糊性：对 Winograd 模式挑战的视觉转折

利用 GPT-4 生成提示并使用 Diffusion Attentive Attribution Maps (DAAM) 进行热图分析，我们引入了一个新的数据集 WinoVis，用于在多模态环境中对文本到图像模型进行代词消岐。通过对连续模型版本的评估，我们发现尽管有逐步的进展，Stable Diffusion 2.0 在 WinoVis 上的准确率仅为 56.7％，只略微超过随机猜测。进一步的错误分析确定了未来研究的重要方向，旨在提升文本到图像模型在解释和与复杂视觉世界交互的能力。

May, 2024

一个人机协作框架用于模式开发

提出了一个新的框架，通过将人类和机器的智能结合起来，合作设计新的 Winograd schemas，从而解决 Winograd Schema Challenge 中的人工智能问题。

Feb, 2024

探索无监督预训练和句子结构建模用于 Winograd Schema Challenge

本文介绍了 Winograd Schema Challenge 中采用最新技术取得的最高准确率，并探讨了共同建模句子结构、利用先进的预训练模型学习知识以及进行微调等方法对性能的影响，并分析表明微调在较简单的联想问题中更有利，而建模句子结构则对较困难的非联想子集更有帮助。同时，本文还表明，更大的微调数据集可以带来更好的性能，这也表明了未来注释更多 Winograd 模式句子方面的潜在价值。

Apr, 2019

Winograd Schema Challenge 的惊人强大技巧

本文探讨了在类似代词消歧问题的数据集上进行微调对于三种语言模型在 Winograd Schema Challenge (WSC) 数据集上表现的影响，并生成了一个大规模的无监督 WSC-like 数据集，通过细调 BERT 语言模型在引入的及 WSCR 数据集上，WSC273 和 WNLI 的总体准确率分别达到了 72.5% 和 74.7%，相较于先前的最优方案提高了 8.8% 和 9.6%。此外，我们的微调模型在 Denis Trichelair 等人（2018）引入的 “复杂” 子集上也更加稳健。

May, 2019

回到起点：Winograd 模式中的工件检测、训练和常识分离

本文主要探讨了基于预训练语言模型的方法在 Winograd Schema（WS）测试中的表现提升是否导致了常识推理能力的提高。文章指出当前 WS 的评估方法不够优化，提出了一种基于双子句的新评估方法，并提出了两种新的基准方法以证明 WS 基准的局限性。文章采用无监督学习方法对常识推理能力进行了评估，发现在严格的评估条件下，WS 基准的性能只是因为在训练 WS 模型时使用了监督，无法支持所需的所有常识推理技能和知识。

Apr, 2021

对 Winograd-Style 任务数据集重叠的分析

通过研究神经语言模型在 Winograd Schema Challenge 任务中的表现，我们发现测试实例与神经语言模型训练语料库之间的重叠对模型分类准确性具有重要影响。我们发现现有训练语料库与测试实例的重叠具有较高比例，导致模型在具有最小重叠的实例上表现显著下降。基于这些结果，我们构建了 KnowRef-60K 数据集，它是至今为止最大的 Winograd Schema Challenge 风格的常识推理语料库，并且与当前的预训练语料库重叠比例显著降低。

Nov, 2020