普遍化温纳格术式及其情境性
本文回顾了 Winograd Schema Challenge 的历史并讨论了过去十年 WSC 研究中的持久贡献。我们讨论了为 WSC 开发的各种数据集的重要性以及研究社区对评估 AI 系统智能的代理任务作用的更深入理解。
Jan, 2022
本文综述了 Winograd Schema Challenge,介绍了它的常识推理和自然语言理解挑战,并回顾了自提出以来已发布的数据集和方法,它是一种包含高度歧义代词的一对句子,需要深刻理解文本内容和情景以正确解决。
Apr, 2020
本文构造了类量子的语境性指称,利用 sheaf 论证明了 BERT 在自然语言语料库中发现了丰富的群体语境性例子,这些例子为未来研究和将量子计算扩展到自然语言处理提供了可能性。
Aug, 2022
介绍了一种新的数据集 WinoGrande,有效性在处理机器通用感性问题方面被证明,但同时提出存在机器学习算法数据集的偏见问题,需要进行算法级别的 “偏见减少” 来基本获得良好的机器通用感性问题解决方案。
Jul, 2019
利用 GPT-4 生成提示并使用 Diffusion Attentive Attribution Maps (DAAM) 进行热图分析,我们引入了一个新的数据集 WinoVis,用于在多模态环境中对文本到图像模型进行代词消岐。通过对连续模型版本的评估,我们发现尽管有逐步的进展,Stable Diffusion 2.0 在 WinoVis 上的准确率仅为 56.7%,只略微超过随机猜测。进一步的错误分析确定了未来研究的重要方向,旨在提升文本到图像模型在解释和与复杂视觉世界交互的能力。
May, 2024
提出了一个新的框架,通过将人类和机器的智能结合起来,合作设计新的 Winograd schemas,从而解决 Winograd Schema Challenge 中的人工智能问题。
Feb, 2024
本文介绍了 Winograd Schema Challenge 中采用最新技术取得的最高准确率,并探讨了共同建模句子结构、利用先进的预训练模型学习知识以及进行微调等方法对性能的影响,并分析表明微调在较简单的联想问题中更有利,而建模句子结构则对较困难的非联想子集更有帮助。同时,本文还表明,更大的微调数据集可以带来更好的性能,这也表明了未来注释更多 Winograd 模式句子方面的潜在价值。
Apr, 2019
本文探讨了在类似代词消歧问题的数据集上进行微调对于三种语言模型在 Winograd Schema Challenge (WSC) 数据集上表现的影响,并生成了一个大规模的无监督 WSC-like 数据集,通过细调 BERT 语言模型在引入的及 WSCR 数据集上,WSC273 和 WNLI 的总体准确率分别达到了 72.5% 和 74.7%,相较于先前的最优方案提高了 8.8% 和 9.6%。此外,我们的微调模型在 Denis Trichelair 等人(2018)引入的 “复杂” 子集上也更加稳健。
May, 2019
本文主要探讨了基于预训练语言模型的方法在 Winograd Schema(WS)测试中的表现提升是否导致了常识推理能力的提高。文章指出当前 WS 的评估方法不够优化,提出了一种基于双子句的新评估方法,并提出了两种新的基准方法以证明 WS 基准的局限性。文章采用无监督学习方法对常识推理能力进行了评估,发现在严格的评估条件下,WS 基准的性能只是因为在训练 WS 模型时使用了监督,无法支持所需的所有常识推理技能和知识。
Apr, 2021
通过研究神经语言模型在 Winograd Schema Challenge 任务中的表现,我们发现测试实例与神经语言模型训练语料库之间的重叠对模型分类准确性具有重要影响。我们发现现有训练语料库与测试实例的重叠具有较高比例,导致模型在具有最小重叠的实例上表现显著下降。基于这些结果,我们构建了 KnowRef-60K 数据集,它是至今为止最大的 Winograd Schema Challenge 风格的常识推理语料库,并且与当前的预训练语料库重叠比例显著降低。
Nov, 2020