Jul, 2024

LLaVA 视觉语言模型为何回复英文图像?

TL;DR我们发现一种意外的多语言偏差存在于一类流行的多模态视觉语言模型(VLMs)中。将图像包含在 LLaVA 风格的 VLM 查询中,无论查询的语言如何,模型返回英文响应的可能性显着增加。本文通过对设计空间进行广泛剔除和模型对图像和文本输入进行机械分析的双重方法,调查了产生此损失的原因。两种方法都表明该问题源于 LLaVA 模型的语言建模组件。从统计上看,我们发现将语言主干切换为双语语言模型对减少此错误具有最强的效果。从机理上看,我们提供了有力的证据表明视觉输入与文本输入不被映射到类似的空间,并且对中间注意力层进行干预可以减少此偏差。我们的发现为希望了解多模态和多语言空间之间交叉的研究人员和工程师提供了重要的见解,并为开发适用于非英语环境的能力强大且包容性的 VLMs 的目标做出了贡献。