Nov, 2023

视觉与语言的同步:用于指代图像分割的双向标记掩码自编码器

TL;DR提出了一种新的双向掩蔽自编码器(BTMAE)模型,通过重建图像和语言特征中的缺失特征来学习图像与语言的上下文,并实现在复杂语句和场景中的强鲁棒性,提高推理图像分割的性能。