从我的视角看：对大型视觉 - 语言模型在图片理解中的西方文化偏见进行诊断

Jun, 2024

从我的视角看：对大型视觉 - 语言模型在图片理解中的西方文化偏见进行诊断

See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding

Amith Ananthram, Elias Stengel-Eskin, Carl Vondrick, Mohit Bansal, Kathleen McKeown

TL;DR视觉 - 语言模型（VLMs）可以通过多种语言回答有关图像的问题。然而，除了语言，文化也影响我们的观察方式。在这项研究中，我们展示了一项新颖的调查，证明并定位了 VLMs 在图像理解中存在的西方偏见。通过对文化多样的图像和注释进行主观和客观的视觉任务评估，我们发现 VLMs 在每个任务的西方子集上表现更好。追踪偏见源头的控制实验强调了在仅使用文本进行预训练时构建公平 VLMs 的多样语言混合的重要性，即使是在英语推理的情况下。此外，虽然使用目标文化语言进行提示可以减少偏见，但并不能替代构建更具世界语言代表性的人工智能。

Abstract

vision-language models (VLMs) can respond to queries about images in many languages. However, beyond language, culture affects how we see things. For example, individuals from Western cultures focus more on the c

vision-language models culture image understanding western bias language mix

发现论文，激发创造

无过滤器：对比式视觉语言模型中的文化和社会经济多样性

该研究探讨了视觉 - 语言模型中的文化和社会经济多样性，研究发现了数据训练过程中对低社会经济地位社群和文化理解的不公平现象，并提出了一种改进方法以提高文化多样性。

May, 2024

从地方概念到普适性：评估视觉语言模型的多元文化理解

通过引入 GlobalRG 基准，涵盖了检索跨文化图像的普遍概念和在图像中定位文化特定概念这两个具有挑战性的任务，我们评估了各种模型在不同文化背景下的表现，并强调了在视觉语言模型中增强多元文化理解的必要性。

Jun, 2024

LLaVA 视觉语言模型为何回复英文图像？

我们发现一种意外的多语言偏差存在于一类流行的多模态视觉语言模型（VLMs）中。将图像包含在 LLaVA 风格的 VLM 查询中，无论查询的语言如何，模型返回英文响应的可能性显着增加。本文通过对设计空间进行广泛剔除和模型对图像和文本输入进行机械分析的双重方法，调查了产生此损失的原因。两种方法都表明该问题源于 LLaVA 模型的语言建模组件。从统计上看，我们发现将语言主干切换为双语语言模型对减少此错误具有最强的效果。从机理上看，我们提供了有力的证据表明视觉输入与文本输入不被映射到类似的空间，并且对中间注意力层进行干预可以减少此偏差。我们的发现为希望了解多模态和多语言空间之间交叉的研究人员和工程师提供了重要的见解，并为开发适用于非英语环境的能力强大且包容性的 VLMs 的目标做出了贡献。

Jul, 2024

视觉语言模型是否偏向纹理或形状，并且我们能否引导它们？

通过对多模态模型的研究，发现视觉语言模型（VLMs）比纯视觉模型更倾向于形状（shape）偏好，并且通过语言提示可以通过 VLMs 来引导形状偏好的变化。

Mar, 2024

一个评估视觉 - 语言模型中性别偏见的统一框架和数据集

通过构建统一的框架系统评估大规模视觉语言模型中的性别职业偏见，我们在不同输入输出模态下的基准测试中观察到不同的偏见程度和方向，希望我们的工作能指导未来改进视觉语言模型以学习社会上没有偏见的表示方式。

Feb, 2024

文化与语言多样性改善视觉表达

我们的研究展示了多语言语境下数据集和模型生成的图像标题之间的显著语义差异，以及不同语言训练的模型在对应语言的测试数据上表现最佳，而在多语言内容上训练的模型在所有评估数据组合上都表现良好，这对于改善图像理解的多样化感知具有重要意义。

Oct, 2023

消除大型视觉语言模型中的偏见

在计算机视觉和自然语言处理领域，本研究重要不可或缺的工具是大型视觉 - 语言模型（LVLMs），它们能够根据视觉输入生成文本描述。然而，我们的调查发现生成的内容存在显著的偏见，主要受到底层大型语言模型（LLMs）的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息，我们提出了两种简单且无需训练的策略。首先，对于分类或多项选择问题回答（QA）等任务，我们通过仿射变换提出了一个 “校准” 步骤来调整输出分布。这种 “事后去偏” 的方法确保了当图像不存在时每个答案都具有均匀的分数，作为一种有效的正则化技术以减轻 LLM 先验的影响。对于更复杂的开放式生成任务，我们将这种方法扩展为 “去偏抽样”，借鉴了对比解码方法的灵感。此外，我们的研究还揭示了 LVLMs 在不同解码配置下的不稳定性，通过对不同设置的系统性探索，我们显著提高了性能，超过了现有评估结果，并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象，还有助于生成更有用和准确的插图。

Mar, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

构建视觉 - 语言模型时的要点

基于大语言模型和视觉变换的视觉语言模型（VLMs）的增长兴趣，我们观察到在 VLMs 设计中往往存在未经支持的决策，这使得很难确定哪些选择能够提高模型性能，为了解决这个问题，我们进行了大量关于预训练模型、架构选择、数据和训练方法的实验，基于这些实验结果，我们开发了一个 8 亿参数的高效基础 VLM 模型

May, 2024

通过视觉表示精炼视觉 - 语言模型中的偏差感知

通过使用简单的线性探测器，本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征，结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响，实证结果表明相比文本嵌入，依赖于 CLIP 的视觉表示更为实用，可克服内置偏见。

May, 2024