Aug, 2023

基于知识的提示调优通用视觉语言模型

TL;DR通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉-语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的CoCoOp方法相比,KAPT在新类别中获得了3.22%的绝对增益和2.57%的调和均值增益。