评估视觉语言模型在双稳态图像上的表现

May, 2024

评估视觉语言模型在双稳态图像上的表现

Evaluating Vision-Language Models on Bistable Images

Artemis Panagopoulou, Coby Melkin, Chris Callison-Burch

TL;DR透过对 29 个双稳图像进行 116 种不同的亮度、色调和旋转处理，该研究广泛检查了使用双稳图像的视觉 - 语言模型。发现除了 Idefics 家族和 LLaVA1.5-13b 模型外，其他模型对于其中一种解释比另一种更倾向，并在图像处理中变化极小，仅在图像旋转时有少数例外。与人类偏好的比较发现，模型不具备与人类一致的连贯偏见，经常与人类最初的解释不同。此外，还研究了提示的变化和使用同义标签的影响，发现这些因素对模型的解释影响更大，显示了语言先验相对于图像 - 文本训练数据在双稳图像解释中的更高影响度。所有代码和数据均为开源。

Abstract

bistable images, also known as ambiguous or reversible images, present visual stimuli that can be seen in two distinct interpretations, though not simultaneously by the observer. In this study, we conduct the mos

bistable images vision-language models interpretations image manipulations language priors

发现论文，激发创造

LLaVA 视觉语言模型为何回复英文图像？

我们发现一种意外的多语言偏差存在于一类流行的多模态视觉语言模型（VLMs）中。将图像包含在 LLaVA 风格的 VLM 查询中，无论查询的语言如何，模型返回英文响应的可能性显着增加。本文通过对设计空间进行广泛剔除和模型对图像和文本输入进行机械分析的双重方法，调查了产生此损失的原因。两种方法都表明该问题源于 LLaVA 模型的语言建模组件。从统计上看，我们发现将语言主干切换为双语语言模型对减少此错误具有最强的效果。从机理上看，我们提供了有力的证据表明视觉输入与文本输入不被映射到类似的空间，并且对中间注意力层进行干预可以减少此偏差。我们的发现为希望了解多模态和多语言空间之间交叉的研究人员和工程师提供了重要的见解，并为开发适用于非英语环境的能力强大且包容性的 VLMs 的目标做出了贡献。

Jul, 2024

视觉语言模型是否偏向纹理或形状，并且我们能否引导它们？

通过对多模态模型的研究，发现视觉语言模型（VLMs）比纯视觉模型更倾向于形状（shape）偏好，并且通过语言提示可以通过 VLMs 来引导形状偏好的变化。

Mar, 2024

图像胜过言辞：从因果中介视角理解和减轻视觉语言模型中的偏见

通过因果中介分析，我们提出了一个框架，来测量和映射在视觉 - 语言模型中生成和传播偏见的路径，结果显示图像特征是偏见的主要贡献者，对模型偏见的减轻起到重要作用，同时能保持性能稳定。

Jul, 2024

基于语义表示的语言偏差图像分类评估

通过引入基于认知科学文献的方法工具，本研究介绍了一项基准测试来评估人工模型的偏差，并使用这个基准测试评估了 CLIP 模型。我们发现，虽然单词嵌入的图像会扭曲 CLIP 模型在不同类别级别上的图像分类，但这种影响不依赖于图像和嵌入单词之间的语义关系，这表明 CLIP 视觉处理中的语义词表示与图像表示不共享。

Jan, 2022

在多模态语言模型评估中控制刻板印象

我们提出了一种方法和设计了两个基准集，以衡量语言和视觉语言模型在有或没有刻板印象的情况下使用视觉信号的程度。我们的结果表明，多模型之间存在显着差异：最近基于 Transformer 的 FLAVA 似乎比早期基于 CNN 的模型（如 VisualBERT 和 LXMERT）更敏感于图像的选择，而且受刻板印象的影响较小。这种效果在控制型环境中比传统的评估中更容易觉察，我们不知道模型是依赖于刻板印象还是视觉信号。

Feb, 2023

分析基于视觉条件的语言模型的设计空间：棱镜式 VLMs

通过一系列标准化评估和深入研究，提供了视觉相关语言模型 (VLMs) 的能力和设计决策，包括图像预处理、架构和优化等方面的细致洞察。

Feb, 2024

BiVLC: 通过文本到图像检索扩展视觉 - 语言组合性评估

双向视觉语言组合性 (BiVLC) 数据集用于添加由合成文本生成的合成负向图像，从而产生两个图像到文本检索示例和两个文本到图像检索示例，发现当前多模态模型在文本到图像方向上表现不佳。

Jun, 2024

IBD：通过图像偏置解码减轻大型视觉语言模型中的幻觉

本研究提出了一种新颖的图像偏置解码技术，以对抗引起幻觉的过度依赖文本的问题，并通过综合统计分析验证了该方法的可靠性，通过自适应调整策略在不同条件下实现了强大灵活的处理能力。实验证明，在不需要额外训练数据且仅有模型参数的微小增加情况下，我们的方法能够显著减少 LVLM 的幻觉，并增强生成回应的真实性。

Feb, 2024

IllusionVQA：一个为视觉语言模型设计的具有挑战性的视错觉数据集

Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.

Mar, 2024

从我的视角看：对大型视觉 - 语言模型在图片理解中的西方文化偏见进行诊断

视觉 - 语言模型（VLMs）可以通过多种语言回答有关图像的问题。然而，除了语言，文化也影响我们的观察方式。在这项研究中，我们展示了一项新颖的调查，证明并定位了 VLMs 在图像理解中存在的西方偏见。通过对文化多样的图像和注释进行主观和客观的视觉任务评估，我们发现 VLMs 在每个任务的西方子集上表现更好。追踪偏见源头的控制实验强调了在仅使用文本进行预训练时构建公平 VLMs 的多样语言混合的重要性，即使是在英语推理的情况下。此外，虽然使用目标文化语言进行提示可以减少偏见，但并不能替代构建更具世界语言代表性的人工智能。

Jun, 2024