描绘模糊性：对 Winograd 模式挑战的视觉转折

ACLMay, 2024

描绘模糊性：对 Winograd 模式挑战的视觉转折

Picturing Ambiguity: A Visual Twist on the Winograd Schema Challenge

Brendan Park, Madeline Janecek, Naser Ezzati-Jivan, Yifeng Li, Ali Emami

TL;DR利用 GPT-4 生成提示并使用 Diffusion Attentive Attribution Maps (DAAM) 进行热图分析，我们引入了一个新的数据集 WinoVis，用于在多模态环境中对文本到图像模型进行代词消岐。通过对连续模型版本的评估，我们发现尽管有逐步的进展，Stable Diffusion 2.0 在 WinoVis 上的准确率仅为 56.7％，只略微超过随机猜测。进一步的错误分析确定了未来研究的重要方向，旨在提升文本到图像模型在解释和与复杂视觉世界交互的能力。

Abstract

large language models (LLMs) have demonstrated remarkable success in tasks like the winograd schema challenge (WSC), showcasing advanced textual common-sense reasoning. However, applying this reasoning to

large language models winograd schema challenge multimodal domains pronoun disambiguation text-to-image models

发现论文，激发创造

Winograd Schema Challenge 的惊人强大技巧

本文探讨了在类似代词消歧问题的数据集上进行微调对于三种语言模型在 Winograd Schema Challenge (WSC) 数据集上表现的影响，并生成了一个大规模的无监督 WSC-like 数据集，通过细调 BERT 语言模型在引入的及 WSCR 数据集上，WSC273 和 WNLI 的总体准确率分别达到了 72.5% 和 74.7%，相较于先前的最优方案提高了 8.8% 和 9.6%。此外，我们的微调模型在 Denis Trichelair 等人（2018）引入的 “复杂” 子集上也更加稳健。

May, 2019

大型语言模型和多模态检索在视觉词义消歧中的应用

通过多种方法，包括多模态检索、大型语言模型、问题回答以及学习排序模型等，本文深入研究了视觉词义消歧任务，以揭示其有趣的特性，为未来研究方向提供了有价值的启示。

Oct, 2023

普遍化温纳格术式及其情境性

我们提出了一种新颖的方法，将 Winograd 模式广义化，从而使其类似于 Bell-CHSH 测量方案，并通过人们在众包平台上收集的人类判断报告了一个这种广义模式的实例。所得模型违反了 Bell-CHSH 不等式 0.192，从而在指代消解设置中展示出了上下文相干性。

Aug, 2023

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024

Winoground: 探究视觉和语言模型的视觉语言组成性

介绍了一项新的任务和数据集 Winoground，用于评估视觉和语言模型进行视觉 - 语言组成推理的能力，展示了目前最先进的视觉和语言模型在该任务上表现不尽如人意的情况，并探讨如何改进模型的方法。

Apr, 2022

语言模型作为视觉词义消歧的知识库

利用大型语言模型 (Knowledge Bases) 中存储的知识，通过适当的提示实现以零 - shot 方式检索 VL transformers 的性能改进，并将 Visual Word Sense Disambiguation 转化为纯粹的文本问答问题。

Oct, 2023

WinoGrande：规模化的敌对 Winograd 模式挑战

介绍了一种新的数据集 WinoGrande，有效性在处理机器通用感性问题方面被证明，但同时提出存在机器学习算法数据集的偏见问题，需要进行算法级别的 “偏见减少” 来基本获得良好的机器通用感性问题解决方案。

Jul, 2019

Winograd 模式挑战的击败

本文回顾了 Winograd Schema Challenge 的历史并讨论了过去十年 WSC 研究中的持久贡献。我们讨论了为 WSC 开发的各种数据集的重要性以及研究社区对评估 AI 系统智能的代理任务作用的更深入理解。

Jan, 2022

大型语言模型作为一致的故事可视化器

StoryGPT-V 使用潜在扩散和大语言模型的优点，生成具有一致且高质量角色的图像，通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异，并具有较低的内存消耗。

Dec, 2023

WinoViz：在不同状态下探索物体的视觉属性

人们在特定语境下会感知和理解物体的不同视觉属性。以香蕉为例，它腐烂时变成棕色，未成熟时是绿色。我们呈现了 WinoViz，一个仅包含文本的评估数据集，包括 1,380 个示例，以测试语言模型在不同语境或状态下理解物体的变体视觉属性的推理能力。我们的任务具有挑战性，因为它需要实用推理和视觉知识推理。我们还呈现了多跳数据，这是我们数据的一种更具挑战性的版本，需要多步推理链来解决我们的任务。在我们的实验分析中，我们的发现是：a）如 GPT-4 等大型语言模型表现出良好的性能，但当涉及到多跳数据时，它们的性能显著下降。b）大型模型在实用推理方面表现较好，但在我们的任务中，视觉知识推理是一个瓶颈。c）视觉语言模型胜过它们的仅语言模型对应物。d）具有机器生成图像的模型在我们的任务中表现不佳，这是由于生成图像的质量较差。

Feb, 2024