使用残差学习表现引导的视觉Transformer模型
该研究提出使用可学习的记忆令牌来增强视觉Transformer模型,使其适应新任务,使用较少的参数,同时保留先前学习任务的能力。我们引入一组可学习的嵌入向量,即“记忆令牌”,提供对特定数据集有用的上下文信息。该模型的准确性,通过每层只增加少量记忆令牌来显着改善,表现仅略低于显著更昂贵的完全微调。我们还提出了一个注意力掩模方法,使其能够扩展到新的下游任务,模型可在小的增量成本下同时执行旧任务和新任务。
Mar, 2022
本论文提出了基于prompt learning的全新方法DoPrompt,利用domain prompts嵌入源域的知识进行目标域的预测,针对视觉转换器(ViT)在领域泛化方面存在的问题,经过大量实验证明本文方法在四个基准数据集上获得了1.4%的精度提高,是基于ViT骨干结构的状态-of-the-art算法的3.5倍。
Aug, 2022
本文探讨了基于视觉转换器(vision transformers)进行生成性知识转移的方法,通过引入可学习的提醒(prompt)标记和设计,成功地实现了良好的图像生成质量和知识转移。
Oct, 2022
本文提出一种简单且有效的视觉提示方法,用于将预训练模型适应下游识别任务。并重新引入了两种常用技术,即输入多样性和梯度归一化。该方法在12个流行的分类数据集上创造了82.8%的平均准确率的记录,并提供了代码。
Dec, 2022
Visual Prompt Tuning (VPT) 是一种有效的方法,用于适应预训练的 Vision Transformers(ViTs) 到下游任务,我们通过插入适当的 prompt token 可以提高其效果,同时我们也提出了一种可以为每个 ViT block 学习对应的 gate,以调整其对 prompt tokens 的影响,最终在 FGVC,VTAB 和 ADE20K 数据集上表现出更好的性能。
Jun, 2023
本研究提出了一种名为“Approximated Prompt Tuning”的方法,用以提高视觉语言预训练模型的迁移学习效率,其基于软提示令牌的独立信息扩散步骤,从而有效地避免了昂贵的全局关注建模,并显著降低了计算复杂度。
Jun, 2023
提出了一种有效和高效的视觉提示调整(E^2VPT)方法来实现大规模基于Transformer的模型适应,该方法通过引入一组可学习的键值提示和视觉提示分别到自注意力和输入层,以提高模型微调的效果,并设计了提示修剪程序来系统地修剪低重要性的提示,同时保持模型性能,极大地提升了模型的效率。实证结果表明,我们的方法在两个基准测试上优于几种最先进的基线模型,并且参数使用非常低(例如,在VTAB-1k上,模型参数的0.32%)。
Jul, 2023
通过在输入图像中引入视觉提示信息,本研究旨在为视觉变换器模型设计学习视觉提示,以引导其注意力集中在图像的特定区域,通过自监督学习的方式进行优化,实验结果表明该优化策略在各种预训练视觉编码器中的效果显著。
Jun, 2024
Optimal Transport-guided Test-Time Visual Prompting (OT-VP) leverages prompt learning at test time to align target and source domains without altering pre-trained model parameters, achieving significant improvements in accuracy on benchmark datasets.
Jun, 2024