Jun, 2024

EVF-SAM: 文本引导片段任意模型的早期视觉语言融合

TL;DR利用多模态提示和视觉 - 语言模型,本文介绍了一种简单而有效的基于早期视觉 - 语言融合的提及分割方法,EVF-SAM,它能以较少的参数获得比以往的大型多模态模型更好的性能,用于提高 Segment Anything Model (SAM) 在提及分割任务上的表现。