Jun, 2024

从我的视角看:对大型视觉 - 语言模型在图片理解中的西方文化偏见进行诊断

TL;DR视觉 - 语言模型(VLMs)可以通过多种语言回答有关图像的问题。然而,除了语言,文化也影响我们的观察方式。在这项研究中,我们展示了一项新颖的调查,证明并定位了 VLMs 在图像理解中存在的西方偏见。通过对文化多样的图像和注释进行主观和客观的视觉任务评估,我们发现 VLMs 在每个任务的西方子集上表现更好。追踪偏见源头的控制实验强调了在仅使用文本进行预训练时构建公平 VLMs 的多样语言混合的重要性,即使是在英语推理的情况下。此外,虽然使用目标文化语言进行提示可以减少偏见,但并不能替代构建更具世界语言代表性的人工智能。