Oct, 2023

SAM-CLIP:融合视觉基础模型实现语义和空间理解

TL;DR我们提出了一种简单的方法,将视觉基础模型(如 CLIP 和 Segment Anything Model)高效地合并成一个统一的模型,以便于边缘设备应用,并能够在广泛的视觉任务中学习富含定位和语义特征的更丰富的视觉表示,同时在零样本语义分割方面取得了新的最先进结果。