PromptKD: 无监督的视觉语言模型提示蒸馏
本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似CLIP的视觉语言模型的传递性能。该方法实验结果显示,在ImageNet以及其他10个数据集上,与原始CLIP相比,UPL具有更优秀的传输表现,并且增强版的UPL在大多数数据集上甚至能够与8-shot CoOp和8-shot TIP-Adapter竞争。
Apr, 2022
本文介绍了一个基于原型的新型学习方法——原型提示学习法(PTP),用于在预先训练的视觉语言模型中进行少量样本的图像识别任务。通过定义图像原型和提示原型来实现相似图像的相似提示,从而有效地利用潜在知识并适应各种PVLM。
Oct, 2022
本文介绍了一种新的PrOmpt cLass lEarning (POLE)策略,在弱监督语义分割(WSSS)问题上实现最先进的性能,并强调了语言-视觉模型在WSSS中的优势和提示学习在该问题中的潜力。
Jun, 2023
本文提出一种叫做上下文提示学习的框架,用于多模态学习中训练可对齐图像本地化特征并且能够适应当前任务的动态提示,通过应用于多个标准和少样本数据集上展示了比现有技术方法更优越的性能和强大的适用性。
Jul, 2023
通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉-语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的CoCoOp方法相比,KAPT在新类别中获得了3.22%的绝对增益和2.57%的调和均值增益。
Aug, 2023
PRE是一种简单而高效的方法,通过使用一种 prompt 编码器来重新参数化输入 prompt 嵌入,从而增强对从少量样本中探索任务特定知识的能力,其在新类上实现了5.60%的平均准确率提升和3%的调和平均数提升。
Sep, 2023
本研究提出了一种使用仅文本数据学习通用提示的方法,通过将LLL(large language models)中的上下文数据映射到学习到的提示中,实现了零样本转移,并在4个基准测试上进行了广泛评估。
Jan, 2024
通过分类原型对齐和提示同步来提高视觉语言模型的零样本泛化能力和处理类别不平衡问题,并在测试中取得明显优于其他方法的结果。
Apr, 2024
这篇论文介绍了一种名为知识蒸馏提示学习的方法,通过无监督知识蒸馏从更强大的模型中提取知识,以提高基于提示学习技术的视觉-语言模型在零样本领域泛化、跨数据集泛化以及基于新类的零样本泛化问题上的推广能力。
Jul, 2024
本研究解决了在视觉语言模型提示预训练中有限可学习提示面临的欠拟合风险和泛化能力不足的问题。我们提出了一种通用框架——重新审视提示预训练(RPP),通过引入不共享的个体查询、键和值学习提示及利用预训练CLIP教师模型的软标签,来提升模型的适应能力和泛化性能。实验表明,RPP在多个基准测试中表现出色,证明了其在各类视觉识别任务中的强大传递能力。
Sep, 2024