Sep, 2021

CPT:用于预训练视觉语言模型的彩色提示调节

TL;DR该研究提出 Cross-modal Prompt Tuning,一种基于图像和文本的填空问题的视觉定位模型调参范式,能够在少量标记数据下使模型具有强大的零样本或少样本学习能力,实现了视觉与语言的理解与应用。