ICMLJun, 2023

自监督视觉变换器的视觉提示调优改进

TL;DRVisual Prompt Tuning (VPT) 是一种有效的方法,用于适应预训练的 Vision Transformers (ViTs) 到下游任务,我们通过插入适当的 prompt token 可以提高其效果,同时我们也提出了一种可以为每个 ViT block 学习对应的 gate,以调整其对 prompt tokens 的影响,最终在 FGVC,VTAB 和 ADE20K 数据集上表现出更好的性能。