May, 2024

融合与校准:一种双向的视觉语言引导的用于指代图像分割的框架

TL;DR本文介绍了 FCNet(一个使用双向引导融合方法的框架),其中视觉和语言在引导角色中相互作用,旨在解决自然语言描述与像素级细节之间的关联问题,并通过在多模态特征上进行初始融合和进一步校准,提高多模态特征的质量。实验结果表明,我们的方法在多个数据集上优于现有最先进算法。