Nov, 2023
视觉与语言的同步:用于指代图像分割的双向标记掩码自编码器
Synchronizing Vision and Language: Bidirectional Token-Masking AutoEncoder for Referring Image Segmentation
Minhyeok Lee, Dogyoon Lee, Jungho Lee, Suhwan Cho, Heeseung Choi...
TL;DR提出了一种新的双向掩蔽自编码器(BTMAE)模型,通过重建图像和语言特征中的缺失特征来学习图像与语言的上下文,并实现在复杂语句和场景中的强鲁棒性,提高推理图像分割的性能。