重访视觉调优的能量与提示
本文提出了一种名为PPT的框架,通过在预训练阶段添加软提示来获得更好的初始化,将预训练提示调整用于下游任务可达到或甚至优于整体微调的效果,这对于实际使用大规模预训练语言模型是一种有效和高效的方法。
Sep, 2021
本文提出了Instance-wise Prompt Tuning (IPT)方法,该方法是基于Prompt Learning的新型范式,利用输入数据实例注入知识来生成更富有信息量和具体的上下文信息,并在多个任务和资源设置中显着优于任务为基础的Prompt Learning方法,达到仅有0.5%-1.5%调整参数时的基准微调性能。
Jun, 2022
该论文提出了基于prompt调节(Prompt tuning,Pro-tuning)的方法来替代fine-tuning,适应于各种冻结视觉模型到不同的下游视觉任务。实验结果表明,这种方法在图像分类和密集预测任务方面表现优于fine-tuning。
Jul, 2022
该研究通过实验测量了几种不同的文本生成任务原始模型的表现,对比分析了几种参数有效的适应方法(如提示调整、上下文学习和指导性提示调整),并通过IPT探究了这些方法之间的交互作用和优缺点。
Feb, 2023
Visual Prompt Tuning (VPT) 是一种有效的方法,用于适应预训练的 Vision Transformers(ViTs) 到下游任务,我们通过插入适当的 prompt token 可以提高其效果,同时我们也提出了一种可以为每个 ViT block 学习对应的 gate,以调整其对 prompt tokens 的影响,最终在 FGVC,VTAB 和 ADE20K 数据集上表现出更好的性能。
Jun, 2023
本文提出了一种称为PromptSRC的自正则化框架,以指导提示对特定任务和特定不可知通用表示进行优化,通过三种方法实现互相协调的学习,从而最大化下游任务的表现而不损害CLIP泛化能力。
Jul, 2023
通过引入可学习的标记,VPA(Visual Prompt Adaptation)作为一个框架通过测试时间的自适应实现了视觉提示的普遍性,且不需要源领域信息,实验结果表明VPA有效提高了各种模型的历程泛化、抗干扰性和领域适应能力,以及对视觉-语言模型的零样本识别性能的鲁棒性改进。
Sep, 2023
通过对19个不同数据集和任务的全面分析,我们发现Visual Prompt Tuning(VPT)在任务目标差异大或数据分布相似时表现优异,而其成功不仅仅归因于过拟合和优化,而是因为VPT保留了原始特征并添加了参数。
Jan, 2024
基于Context Optimization (CoOp)的Prompt tuning方式可通过推断附加可学习的提示符令牌来有效地调整视觉-语言模型(VLMs)以适应下游任务。然而,这些令牌由于与预训练的令牌无关且无法捕捉特定于输入的知识,如类别感知的文本或实例感知的视觉知识,因此没有足够的区分性。因此,我们提出了一种名为Self-Enhanced Prompt Tuning (SEP) 的新方法,通过从相应的自预训练的令牌中调整每个编码器层的可学习提示符令牌,从而明确地将区分性先验知识融入文本级别和视觉级别的嵌入中以增强性能。SEP的自增强令牌不仅增强了区分性,还减轻了未见域中的领域转移,提高了泛化能力。在实践中,SEP为每个输入数据在文本/视觉编码器的每个层级上选择几个代表性令牌。随后,引入了一个Token Fusion Module (TFM),通过使用交叉注意机制将这些代表性令牌与可学习令牌合并,生成一个自增强令牌。这个自增强令牌随后与所有预训练令牌连接,作为后续编码器层的输入,生成相关的嵌入。通过在各种基准和任务上进行全面评估,证实了SEP在提示调整中的有效性。
May, 2024