May, 2023

上下文视觉转换器用于稳健表征学习

TL;DR提出了一种称为 Contextual Vision Transformers (ContextViT) 的方法,能够为表现出分组结构的图像生成稳健的特征表示。该方法使用额外的上下文令牌来编码组特定信息,并将其附加到输入图像令牌中,从而使模型能够解释特定于组的协变结构,同时保持跨组共享的核心视觉特征,以提高模型对图像的泛化能力。在监督微调和自监督学习任务中均表现良好。