CVPRDec, 2021

LAVT:用于参照图像分割的语言感知视觉 Transformer

TL;DR本研究提出一种新的方法,在视觉 Transformer 编码器网络的中间层通过对语言和视觉特征进行交叉融合,实现更好的交叉模态对齐,进而通过轻量级的掩模预测器得到准确的分割结果,该方法在 RefCOCO、RefCOCO + 和 G-Ref 数据集上均超越了以往的最优方法。