Jun, 2023

理解片段任意模型:SAM 偏向纹理而不是形状

TL;DR对比人类视觉主要依赖形状来识别物体,深度图像识别模型被广泛认为存在对纹理的偏见。最近,元研究团队发布了首个图像分割基础模型,称为 Segment Anything Model(SAM),这引起了很大的关注。在本研究中,我们从纹理和形状的角度理解了 SAM。与以标签为导向的识别任务不同,SAM 被训练为基于提示预测覆盖物体形状的掩码。然而,在本研究中,我们揭示了一个有趣的发现:SAM 对纹理样式的密集特征更具偏向性,而非形状。这一有趣的发现得到了一个新颖的设置的支持,在该设置中我们将纹理和形状提示分离,并构建了纹理 - 形状提示冲突进行掩码预测。