在像素级别释放视觉提示的威力

Dec, 2022

Unleashing the Power of Visual Prompting At the Pixel Level

Junyang Wu, Xianhang Li, Chen Wei, Huiyu Wang, Alan Yuille...

TL;DR本文提出一种简单且有效的视觉提示方法，用于将预训练模型适应下游识别任务。并重新引入了两种常用技术，即输入多样性和梯度归一化。该方法在12个流行的分类数据集上创造了82.8％的平均准确率的记录，并提供了代码。

Abstract

This paper presents a simple and effective visual prompting method for adapting pre-trained models to downstream recognition tasks. Our method includes two key designs. First, rather than directly adding together

发现论文，激发创造

探索视觉提示以适应大规模模型

通过视觉提示来适应视觉中的大规模模型，这种方法在适应预先训练模型方面非常有效。

Mar, 2022

分布式学习

提出了基于提示分布学习的方法，从而通过有效地适应先前训练的视觉-语言模型来处理下游的识别任务，该方法不仅从少量样本中学习低偏差的提示，而且还捕获多种提示的分布以处理不同的视觉表示。

May, 2022

基于原型的提示学习：基于预训练的视觉语言模型的原型提示学习

本文介绍了一个基于原型的新型学习方法——原型提示学习法（PTP），用于在预先训练的视觉语言模型中进行少量样本的图像识别任务。通过定义图像原型和提示原型来实现相似图像的相似提示，从而有效地利用潜在知识并适应各种PVLM。

Oct, 2022

多样性感知的元视觉提示

本文提出了一种称为 Diversity-Aware Meta Visual Prompting 的有效提示方法，可将预训练模型传递到冻结的下游任务，旨在解决图像数据集多样性大的挑战性问题。该方法包括数据集多样性感知提示策略，集群下游数据集到具有相似性的小子集，给每个子集优化一个提示，所有提示都由一个元提示初始化，通过推断过程动态选择适当的提示。实验结果表明，DAM-VP 优于以前的提示方法。

Mar, 2023

细粒度视觉提示

本文介绍了一种新的零样本学习框架，Fine-Grained Visual Prompting（FGVP），通过使用精确的掩码注释来改进视觉提示设计，并展示了在不同的基准测试上均优于传统方法的性能表现。

Jun, 2023

AutoVP：自动视觉提示框架与基准

以視覺提示（VP）作為研究對象，本文提出了AutoVP框架，用於自動化VP設計選擇，同時評估其性能。通過對12個下游圖像分類任務進行綜合性能評估，實驗結果顯示AutoVP優於當前已知VP方法，並提供了高達6.7％的準確率改進和最高27.5％的性能增益。

Oct, 2023

走向强大而准确的视觉提示

我们研究了视觉提示在强大源模型下的性能表现，并提出了一种名为Prompt Boundary Loose (PBL)的新技术来有效减轻在标准准确性上的次优结果，同时使用强大模型作为源模型不会丧失（甚至明显改善）其对抗性鲁棒性。在多个数据集上的广泛实验证明了我们发现的泛用性，并展示了我们提出方法的显著优势。

Nov, 2023

SA$^2$VP：空间对齐和自适应视觉提示

通过学习二维提示令牌映射来进行图像分类的细粒度提示，以模型化输入图像的空间关系和提高有效提示能力。

Dec, 2023

理解预训练的视觉语言模型的多模态提示

通过对多模态提示的直接分析，我们发现多模态提示主要通过引入可学习的偏差项来改进预训练模型在相应数据集上的识别性能，从而提出了偏差调优的方法，并证明了该方法在数据集分类信息有限的情况下较多模态提示具有更好的效果。

Dec, 2023

重新审视视觉语言模型的提示预训练

本研究解决了在视觉语言模型提示预训练中有限可学习提示面临的欠拟合风险和泛化能力不足的问题。我们提出了一种通用框架——重新审视提示预训练（RPP），通过引入不共享的个体查询、键和值学习提示及利用预训练CLIP教师模型的软标签，来提升模型的适应能力和泛化性能。实验表明，RPP在多个基准测试中表现出色，证明了其在各类视觉识别任务中的强大传递能力。

Sep, 2024