引导视觉转换器的视觉提示学习
Visual Attention-Prompted Prediction and Learning 是一种新的框架,可以将视觉关注提示无缝地融入模型的决策过程,并适应具有和没有关注提示的图像进行预测。为了解决视觉关注提示的不完整信息问题,我们引入了基于扰动的关注图修改方法,并提出了一种优化的蒙版聚合方法以及新的权重学习函数,以适应关注图修改过程中的自适应扰动标注聚合。我们的整体框架是为了在多任务的关注提示引导下学习,以提高未提供关注提示的样本的未来预测能力,并通过交替训练的方式来获得更好的收敛性。在两个数据集上进行的大量实验证明了我们提出的框架在增强具有和无关注提示的样本的预测能力方面的有效性。
Oct, 2023
本文通过在测试时间给定新任务的输入输出图像样例及一个新的输入图像,自动产生与这些样例一致的输出图像的方式,探讨了如何在没有特定任务的微调或任何模型修改的情况下,将预训练的视觉模型适应于新的下游任务,并证明了将图像修补算法训练在正确的数据上的效果。
Sep, 2022
本文探讨了基于视觉转换器(vision transformers)进行生成性知识转移的方法,通过引入可学习的提醒(prompt)标记和设计,成功地实现了良好的图像生成质量和知识转移。
Oct, 2022
本文提出一种简单且有效的视觉提示方法,用于将预训练模型适应下游识别任务。并重新引入了两种常用技术,即输入多样性和梯度归一化。该方法在 12 个流行的分类数据集上创造了 82.8%的平均准确率的记录,并提供了代码。
Dec, 2022
本论文提出了基于 prompt learning 的全新方法 DoPrompt,利用 domain prompts 嵌入源域的知识进行目标域的预测,针对视觉转换器 (ViT) 在领域泛化方面存在的问题,经过大量实验证明本文方法在四个基准数据集上获得了 1.4% 的精度提高,是基于 ViT 骨干结构的状态 - of-the-art 算法的 3.5 倍。
Aug, 2022
Visual Prompt Tuning (VPT) 是一种有效的方法,用于适应预训练的 Vision Transformers (ViTs) 到下游任务,我们通过插入适当的 prompt token 可以提高其效果,同时我们也提出了一种可以为每个 ViT block 学习对应的 gate,以调整其对 prompt tokens 的影响,最终在 FGVC,VTAB 和 ADE20K 数据集上表现出更好的性能。
Jun, 2023
通过使用学习到的视觉提示,我们的工作研究了在少样本情况下,通过对 Transformer 解码器进行提示,来提高普适少样本分割(GFSS)任务的效果。我们提出了一种利用少量样本学习视觉提示的方法,通过这些学习到的视觉提示,我们可以对多尺度 Transformer 解码器进行提示,以便实现准确的密集预测。此外,我们引入了一种单向因果关注机制,用于连接通过少样本学习到的新提示和通过大量数据学习到的基础提示,从而提升新提示的质量而不损害基础类别的性能。总体而言,这种提示形式帮助我们在两个不同的基准数据集上实现了 GFSS 的最先进性能:COCO-$20^i$ 和 Pascal-$5^i$,而无需进行测试时间的优化或传导。此外,我们还使用未标记的测试数据进行测试时间的优化,以改进这些视觉提示,我们称之为传导提示调优(transductive prompt tuning)。
Apr, 2024
该研究介绍了一种新颖的多模态模型,可以解码任意视觉提示,通过在 RGB 图像上直接叠加视觉标记的方式,实现了对特定区域的理解,在区域理解任务上取得了最先进的性能,并提出了 ViP-Bench,一个综合评估模型在理解多个维度上的视觉提示能力的基准,为未来的研究提供了可能。
Dec, 2023