生成式迁移学习的视觉提示调整

Oct, 2022

Visual Prompt Tuning for Generative Transfer Learning

Kihyuk Sohn, Yuan Hao, José Lezama, Luisa Polania, Huiwen Chang...

TL;DR本文探讨了基于视觉转换器（vision transformers）进行生成性知识转移的方法，通过引入可学习的提醒（prompt）标记和设计，成功地实现了良好的图像生成质量和知识转移。

Abstract

Transferring knowledge from an image synthesis model trained on a large dataset is a promising direction for learning generative image models from various domains efficiently. While previous works have studied GAN models, we present a recipe for learning →

image synthesis generative models vision transformers knowledge transfer image generation

发现论文，激发创造

领域泛化的 Prompt 视觉 Transformer

本论文提出了基于 prompt learning 的全新方法 DoPrompt，利用 domain prompts 嵌入源域的知识进行目标域的预测，针对视觉转换器 (ViT) 在领域泛化方面存在的问题，经过大量实验证明本文方法在四个基准数据集上获得了 1.4% 的精度提高，是基于 ViT 骨干结构的状态 - of-the-art 算法的 3.5 倍。

Aug, 2022

引导视觉转换器的视觉提示学习

通过在输入图像中引入视觉提示信息，本研究旨在为视觉变换器模型设计学习视觉提示，以引导其注意力集中在图像的特定区域，通过自监督学习的方式进行优化，实验结果表明该优化策略在各种预训练视觉编码器中的效果显著。

Jun, 2024

基于知识的提示调优通用视觉语言模型

通过设计两种类型的知识感知提示，离散提示和学习连续提示，以及视觉编码器的适应头部，实现针对视觉 - 语言模型的知识感知提示调整（KAPT）框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的 CoCoOp 方法相比，KAPT 在新类别中获得了 3.22% 的绝对增益和 2.57% 的调和均值增益。

Aug, 2023

基于输入的自适应生成网络用于冻结视觉转换器

本论文介绍了一种基于视觉提示学习的模型适应方法，提出了 Prompt Generation Network (PGN) 网络，通过从端到端学习的词汇表中采样生成高性能、与输入相关的提示，从而使得预先训练的模型更适应不同的数据集。实验表明，PGN 在 12 个数据集上均优于以前的方法，并且在 5 个数据集上甚至优于全微调，而只需要 100 倍以下的参数。

Oct, 2022

跨域泛化的过渡式视觉 - 语言提示学习

通过使用深度视觉提示以解决域不变性问题，结合语言提示以确保类别可分离性，以及自适应权重机制来平衡域不变性和类别可分离性，本文介绍了一种新的提示学习策略，并通过广泛实验证明深度视觉提示有效提取域不变特征，显著提高深度模型的泛化能力，在三个数据集上取得了最先进的性能。

Apr, 2024

学习分离提示以进行组合图像合成

通过预训练的条件生成模型和视觉提示调优，本文提出了一种领域自适应图像合成框架，能够从少至一张图像中学习出语义和领域的解耦提示，并以目标领域风格合成图像，并进一步应用于零样本领域适应分类，实现了组合泛化。

Jun, 2023

通过图像特定提示学习进行零样本生成模型适应

该研究项目提出了一种名为图像特定提示学习（IPL）的方法，能够为每个源域图像学习特定的提示向量，从而为每个跨域图像对提供更准确的适应方向，增强目标域生成器的灵活性，并改善合成图像的质量和多样性。

Apr, 2023

自监督视觉变换器的视觉提示调优改进

Visual Prompt Tuning (VPT) 是一种有效的方法，用于适应预训练的 Vision Transformers (ViTs) 到下游任务，我们通过插入适当的 prompt token 可以提高其效果，同时我们也提出了一种可以为每个 ViT block 学习对应的 gate，以调整其对 prompt tokens 的影响，最终在 FGVC，VTAB 和 ADE20K 数据集上表现出更好的性能。

Jun, 2023

通过视觉领域提示生成适应分布转变

提出一种在测试时使用少量无标签数据进行模型适应以应对分布偏移的方法，通过利用预训练模型和源域的相关信息从有限数据中提取领域知识，并通过建立知识库、领域特定提示生成器、引导模块、领域感知对比损失和元学习等技术实现领域知识的提取。在多个基准测试中验证了该方法，表明该方法在领域知识提取方面优于之前的工作。

May, 2024

广义少样本分割的视觉引导：多尺度方法

通过使用学习到的视觉提示，我们的工作研究了在少样本情况下，通过对 Transformer 解码器进行提示，来提高普适少样本分割（GFSS）任务的效果。我们提出了一种利用少量样本学习视觉提示的方法，通过这些学习到的视觉提示，我们可以对多尺度 Transformer 解码器进行提示，以便实现准确的密集预测。此外，我们引入了一种单向因果关注机制，用于连接通过少样本学习到的新提示和通过大量数据学习到的基础提示，从而提升新提示的质量而不损害基础类别的性能。总体而言，这种提示形式帮助我们在两个不同的基准数据集上实现了 GFSS 的最先进性能：COCO-$20^i$ 和 Pascal-$5^i$，而无需进行测试时间的优化或传导。此外，我们还使用未标记的测试数据进行测试时间的优化，以改进这些视觉提示，我们称之为传导提示调优（transductive prompt tuning）。

Apr, 2024