Mar, 2024

视觉语言模型是否偏向纹理或形状,并且我们能否引导它们?

TL;DR通过对多模态模型的研究,发现视觉语言模型(VLMs)比纯视觉模型更倾向于形状(shape)偏好,并且通过语言提示可以通过VLMs来引导形状偏好的变化。