Mar, 2024

消除大型视觉语言模型中的偏见

TL;DR在计算机视觉和自然语言处理领域,本研究重要不可或缺的工具是大型视觉-语言模型(LVLMs),它们能够根据视觉输入生成文本描述。然而,我们的调查发现生成的内容存在显著的偏见,主要受到底层大型语言模型(LLMs)的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息,我们提出了两种简单且无需训练的策略。首先,对于分类或多项选择问题回答(QA)等任务,我们通过仿射变换提出了一个“校准”步骤来调整输出分布。这种“事后去偏”的方法确保了当图像不存在时每个答案都具有均匀的分数,作为一种有效的正则化技术以减轻LLM先验的影响。对于更复杂的开放式生成任务,我们将这种方法扩展为“去偏抽样”,借鉴了对比解码方法的灵感。此外,我们的研究还揭示了LVLMs在不同解码配置下的不稳定性,通过对不同设置的系统性探索,我们显著提高了性能,超过了现有评估结果,并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象,还有助于生成更有用和准确的插图。