May, 2024

评估视觉语言模型在双稳态图像上的表现

TL;DR透过对 29 个双稳图像进行 116 种不同的亮度、色调和旋转处理,该研究广泛检查了使用双稳图像的视觉 - 语言模型。发现除了 Idefics 家族和 LLaVA1.5-13b 模型外,其他模型对于其中一种解释比另一种更倾向,并在图像处理中变化极小,仅在图像旋转时有少数例外。与人类偏好的比较发现,模型不具备与人类一致的连贯偏见,经常与人类最初的解释不同。此外,还研究了提示的变化和使用同义标签的影响,发现这些因素对模型的解释影响更大,显示了语言先验相对于图像 - 文本训练数据在双稳图像解释中的更高影响度。所有代码和数据均为开源。