消除大型视觉语言模型中的偏见

Mar, 2024

Debiasing Large Visual Language Models

Yi-Fan Zhang, Weichen Yu, Qingsong Wen, Xue Wang, Zhang Zhang...

TL;DR在计算机视觉和自然语言处理领域，本研究重要不可或缺的工具是大型视觉-语言模型（LVLMs），它们能够根据视觉输入生成文本描述。然而，我们的调查发现生成的内容存在显著的偏见，主要受到底层大型语言模型（LLMs）的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息，我们提出了两种简单且无需训练的策略。首先，对于分类或多项选择问题回答（QA）等任务，我们通过仿射变换提出了一个“校准”步骤来调整输出分布。这种“事后去偏”的方法确保了当图像不存在时每个答案都具有均匀的分数，作为一种有效的正则化技术以减轻LLM先验的影响。对于更复杂的开放式生成任务，我们将这种方法扩展为“去偏抽样”，借鉴了对比解码方法的灵感。此外，我们的研究还揭示了LVLMs在不同解码配置下的不稳定性，通过对不同设置的系统性探索，我们显著提高了性能，超过了现有评估结果，并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象，还有助于生成更有用和准确的插图。

Abstract

In the realms of computer vision and natural language processing, large vision-language models (LVLMs) have become indispensable tools, pr