Mar, 2024

深度指令调优针对片段化模型

TL;DR对于Segment Anything Model(SAM)的(非)条件图像分割任务,通过研究发现,与点-盒引导分割相比,SAM在文本引导任务上表现较差,因其默认的轻量级遮罩解码器中的浅层融合方案。本文提出了两种深度指令调优方法,一种是端到端的,另一种是逐层的。通过这些调优方法,我们可以将SAM的图像编码器视为独立的视觉-语言学习器,而不是构建另一个深度融合分支。对三个高度竞争的参考图像分割基准数据集进行的大量实验证明,简单的端到端DIT显著提高了SAM的性能,而逐层DIT进一步将其推向了最先进水平。