Dec, 2023

指代图像分割的遮罩定位

TL;DR通过引入 Mask Grounding 辅助任务和跨模态对齐损失以及对应的对齐模块,提出了一种用于改善参照图像分割算法的综合方法 MagNet。该方法通过教授模型学习掩蔽文本标记与匹配的视觉对象之间的细粒度对应关系,在 RefCOCO、RefCOCO + 和 G-Ref 等三个关键基准测试中显著优于现有算法,有效地解决了当前参照图像分割算法的局限性。