ICCVAug, 2023

基于知识的提示调优通用视觉语言模型

TL;DR通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉 - 语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的 CoCoOp 方法相比,KAPT 在新类别中获得了 3.22% 的绝对增益和 2.57% 的调和均值增益。