WinoViz：在不同状态下探索物体的视觉属性

Feb, 2024

WinoViz：在不同状态下探索物体的视觉属性

WinoViz: Probing Visual Properties of Objects Under Different States

Woojeong Jin, Tejas Srinivasan, Jesse Thomason, Xiang Ren

TL;DR人们在特定语境下会感知和理解物体的不同视觉属性。以香蕉为例，它腐烂时变成棕色，未成熟时是绿色。我们呈现了 WinoViz，一个仅包含文本的评估数据集，包括 1,380 个示例，以测试语言模型在不同语境或状态下理解物体的变体视觉属性的推理能力。我们的任务具有挑战性，因为它需要实用推理和视觉知识推理。我们还呈现了多跳数据，这是我们数据的一种更具挑战性的版本，需要多步推理链来解决我们的任务。在我们的实验分析中，我们的发现是：a）如 GPT-4 等大型语言模型表现出良好的性能，但当涉及到多跳数据时，它们的性能显著下降。b）大型模型在实用推理方面表现较好，但在我们的任务中，视觉知识推理是一个瓶颈。c）视觉语言模型胜过它们的仅语言模型对应物。d）具有机器生成图像的模型在我们的任务中表现不佳，这是由于生成图像的质量较差。

Abstract

Humans perceive and comprehend different visual properties of an object based on specific contexts. For instance, we know that a banana turns brown ``when it becomes rotten,'' whereas it appears green ``when it is unripe.'' Previous studies on probing visual →

visual properties commonsense knowledge reasoning abilities pragmatic reasoning visual knowledge reasoning

发现论文，激发创造

描绘模糊性：对 Winograd 模式挑战的视觉转折

利用 GPT-4 生成提示并使用 Diffusion Attentive Attribution Maps (DAAM) 进行热图分析，我们引入了一个新的数据集 WinoVis，用于在多模态环境中对文本到图像模型进行代词消岐。通过对连续模型版本的评估，我们发现尽管有逐步的进展，Stable Diffusion 2.0 在 WinoVis 上的准确率仅为 56.7％，只略微超过随机猜测。进一步的错误分析确定了未来研究的重要方向，旨在提升文本到图像模型在解释和与复杂视觉世界交互的能力。

May, 2024

VIPHY：探究 “可见” 的物理常识知识

本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力，并发现这些模型在物体颜色，大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。

Sep, 2022

利用视觉知识在语言任务中：跨模态知识转移的中间预训练的实证研究

本研究探索了将视觉知识整合到语言模型中以填补现有文本信息中缺失的相关性和物体属性信息的空白。研究发现，视觉知识传递可以在低资源和完全监督设置下均有效提高预先训练的语言模型在需要视觉知识的下游任务中的性能。

Mar, 2022

预训练的单模态和多模态模型中的视觉常识

本文研究了图像和语言的单模态和多模态模型对视觉显著属性的度量精度，使用 Visual Commonsense Tests 数据集验证了多模态模型在属性分布重构中优于单模态模型，但仍然存在报告偏差问题，适当增加模型大小并不能提高视觉常识的性能，表明关键在于数据。

May, 2022

使用视觉表示探究上下文语言模型的共同基础

本文通过设计一种探针模型，研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度，并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果，而文本上下文在该过程中发挥了重要作用，但比起人类，具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究，进一步地理解和改善语言模型的视觉能力。

May, 2020

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023

以对象为中心的视觉推理诊断

该研究旨在通过评估不同模型在视觉推理方面的表现来回答视觉问答模型是否在进行视觉推理，为此，研究使用了 GQA 数据集中提供的目标细粒度标注，提出了一种系统性的目标中心的视觉推理诊断方法，并开发了一个名为图形推理机的诊断模型，该模型使用概率场景图替代纯符号视觉表示，并对视觉推理模块进行了教师强制训练。

Dec, 2020

Winoground: 探究视觉和语言模型的视觉语言组成性

介绍了一项新的任务和数据集 Winoground，用于评估视觉和语言模型进行视觉 - 语言组成推理的能力，展示了目前最先进的视觉和语言模型在该任务上表现不尽如人意的情况，并探讨如何改进模型的方法。

Apr, 2022

IllusionVQA：一个为视觉语言模型设计的具有挑战性的视错觉数据集

Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.

Mar, 2024

从视觉到语言的知识迁移：如何实现和衡量？

探究使用视觉数据来补充大型语言模型知识的方法，并提出一种基于 memory colors 任务查询和模型训练数据过滤的方法，以用于测量模型的视觉知识传输能力，并介绍了一种涉及视觉想象步骤的模型架构，并发现我们的方法可以成功用于衡量模型的视觉知识传输能力，而我们的新型模型架构在单模态环境中利用多模态知识具有良好的结果。

Sep, 2021