在像素级别释放视觉提示的威力
提出了基于提示分布学习的方法,从而通过有效地适应先前训练的视觉-语言模型来处理下游的识别任务,该方法不仅从少量样本中学习低偏差的提示,而且还捕获多种提示的分布以处理不同的视觉表示。
May, 2022
本文介绍了一个基于原型的新型学习方法——原型提示学习法(PTP),用于在预先训练的视觉语言模型中进行少量样本的图像识别任务。通过定义图像原型和提示原型来实现相似图像的相似提示,从而有效地利用潜在知识并适应各种PVLM。
Oct, 2022
本文提出了一种称为 Diversity-Aware Meta Visual Prompting 的有效提示方法,可将预训练模型传递到冻结的下游任务,旨在解决图像数据集多样性大的挑战性问题。该方法包括数据集多样性感知提示策略,集群下游数据集到具有相似性的小子集,给每个子集优化一个提示,所有提示都由一个元提示初始化,通过推断过程动态选择适当的提示。实验结果表明,DAM-VP 优于以前的提示方法。
Mar, 2023
本文介绍了一种新的零样本学习框架,Fine-Grained Visual Prompting(FGVP),通过使用精确的掩码注释来改进视觉提示设计,并展示了在不同的基准测试上均优于传统方法的性能表现。
Jun, 2023
以視覺提示(VP)作為研究對象,本文提出了AutoVP框架,用於自動化VP設計選擇,同時評估其性能。通過對12個下游圖像分類任務進行綜合性能評估,實驗結果顯示AutoVP優於當前已知VP方法,並提供了高達6.7%的準確率改進和最高27.5%的性能增益。
Oct, 2023
我们研究了视觉提示在强大源模型下的性能表现,并提出了一种名为Prompt Boundary Loose (PBL)的新技术来有效减轻在标准准确性上的次优结果,同时使用强大模型作为源模型不会丧失(甚至明显改善)其对抗性鲁棒性。在多个数据集上的广泛实验证明了我们发现的泛用性,并展示了我们提出方法的显著优势。
Nov, 2023
通过对多模态提示的直接分析,我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能,从而提出了偏差调优的方法,并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。
Dec, 2023
本研究解决了在视觉语言模型提示预训练中有限可学习提示面临的欠拟合风险和泛化能力不足的问题。我们提出了一种通用框架——重新审视提示预训练(RPP),通过引入不共享的个体查询、键和值学习提示及利用预训练CLIP教师模型的软标签,来提升模型的适应能力和泛化性能。实验表明,RPP在多个基准测试中表现出色,证明了其在各类视觉识别任务中的强大传递能力。
Sep, 2024