Nov, 2021

MaIL: 一种用于引用图像分割的统一遮罩 - 图像 - 语言三模态网络

TL;DR提出 MaIL 范式,是一个更加简洁的编码器 - 解码器流程,通过遮罩图像语言三模态编码器统一单模态特征提取器和它们的融合模型,实现不同模态间的充分特征交互,同时避免了单模态编码器与目标多模态任务之间的一致性问题,并首次在所有常用的引用图像分割数据集上引入实例掩模作为附加模态,显式强调实例级特征,并促进更细致的分割结果。