CVPRApr, 2023

Vita-CLIP: 基于多模态提示的视频和文本自适应 CLIP

TL;DR本文介绍了一种多模态提示学习方案,该方案在单一统一的训练下平衡了监督和零样本学习的表现,并提出了视觉和文本方面的提示方案,通过保持预训练的骨干网络冻结,在保留现有的通用表示的同时实现了最先进的零样本效果。