Feb, 2025
对称视觉对比优化:以最小对比图像对齐视觉-语言模型
Symmetrical Visual Contrastive Optimization: Aligning Vision-Language
Models with Minimal Contrastive Images
TL;DR该研究解决了大型视觉-语言模型(VLMs)在视觉任务中忽视图像内容和过度依赖语言模型先验的问题。提出了S-VCO(对称视觉对比优化),使模型更好地捕捉重要的视觉细节并与对应文本对齐。实验表明,该方法显著提高了VLM在多项基准测试中的表现,特别是在视觉依赖性较高的任务中,减少了高达22%的幻觉现象。