Oct, 2022

VLT: 面向参考分割的视觉语言变换器和查询生成

TL;DR该研究提出了一种轻量级的视觉 - 语言 Transformer 框架来实现引用分割,其中包括 Query Generation Module,Query Balance Module 以及 masked contrastive learning,它们能够动态生成多个特定于输入的查询,以明晰理解语言表达的多样性,同时针对不同的语言表达方式进行了明确的跨样本学习。该框架在五个数据集上都实现了最新的引用分割成果。