CPT：用于预训练视觉语言模型的彩色提示调节

Sep, 2021

CPT：用于预训练视觉语言模型的彩色提示调节

CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models

Yuan Yao, Ao Zhang, Zhengyan Zhang, Zhiyuan Liu, Tat-Seng Chua...

TL;DR该研究提出 Cross-modal Prompt Tuning，一种基于图像和文本的填空问题的视觉定位模型调参范式，能够在少量标记数据下使模型具有强大的零样本或少样本学习能力，实现了视觉与语言的理解与应用。

Abstract

Pre-Trained vision-language models (VL-PTMs) have shown promising capabilities in grounding natural language in image data, facilitating a broad variety of cross-modal tasks. However, we note that there exists a significant gap between the objective forms of model pre-training and fine

vision-language models cross-modal prompt tuning few-shot learning visual grounding image and text

发现论文，激发创造

视觉语言模型的软上下文共享 Prompt 调整

本研究提出了一种基于多任务学习的视觉语言模型 Prompt Tuning 的方法 SoftCPT，用于同时优化多个 Few-Shot 任务的任务共享元网络，结果表明该模型能够通过软共享模式下的多任务学习实现比 CoOp 更好的结果。

Aug, 2022

多任务视觉语言提示微调

本文提出了一种多任务视觉语言提示调整（MVLPT）方法，将跨任务知识纳入提示调整算法中，其结果在 20 个视觉任务上的表现优于现有方法。

Nov, 2022

用对比提示调整使预训练语言模型成为端到端的小样本学习模型

CP-Tuning 是第一个无需手动工程任务特定提示和说明符进行微调的端到端对比提示调整框架，它与任务不变的连续提示编码技术和完全可训练的提示参数相集成。

Apr, 2022

视觉 - 语言模型的对抗提示调整

通过引入 Adversarial Prompt Tuning (AdvPT) 技术，本研究旨在提升视觉 - 语言模型中图像编码器的对抗性鲁棒性，改善对抗攻击的脆弱性，并且结合现有的基于图像处理的防御技术，进一步提高其防御能力。

Nov, 2023

CPL: 计数器事实提示学习用于视觉和语言模型

本文提出了一种新的对视觉和语言模型进行计数事实学习（counterfactual prompt learning，CPL）的方法，该方法同时采用反事实生成和对比学习的方法，在一个联合优化框架中从真实和反事实例子中学习更具有普适性的 prompt 表示。实验测试表明，CPL 在不同的视觉和语言任务上都可以获得优秀的 few-shot 性能。

Oct, 2022

用于视觉语言预训练模型的近似提示调优

本研究提出了一种名为 “Approximated Prompt Tuning” 的方法，用以提高视觉语言预训练模型的迁移学习效率，其基于软提示令牌的独立信息扩散步骤，从而有效地避免了昂贵的全局关注建模，并显著降低了计算复杂度。

Jun, 2023

视觉 - 语言模型中零 - shot 泛化的测试时提示调整

本文提出一种叫做测试时提示调整 (TPT) 的方法，可在单个测试样本上实时学习适应性提示，优化提前提供的 CLIP 模型动态调整提示，以最小化模型预测时的不确定度，提高 CLIP 模型的泛化能力。实验结果表明，TPT 方法在自然情况下的 zero-shot top-1 准确率比以往方法的提升 3.6％，并达到了使用额外培训数据的最新先进方法的性能水平。

Sep, 2022

MuDPT: 针对大型预训练视觉语言模型的多模式深层联合调整

本文介绍了一种基于多模态深度共生的 Prompt Tuning 方法，通过学习一个模型无关的变换网络，实现了深度的双向自然语言和视觉信息融合，在图像识别和领域外泛化方面表现优异。

Jun, 2023

统一视觉与语言提示学习

该研究系统研究了文本和视觉提示的参数微调方法。他们提出了一个名为 Unified Prompt Tuning (UPT) 的方法，通过学习一个微小的神经网络来联合优化跨不同模态的提示，并在 11 个视觉数据集上进行了强有力的测试，取得了较好的 few-shot learning 和 domain generalization 的效果。

Oct, 2022

双对齐下的上下文感知视觉 - 语言模型提示调优

利用双重对齐提示调整 (DuAl-PT)，结合大规模视觉语言模型和预训练大型语言模型，在少样本识别和基于新样本泛化上取得了卓越的性能，为未来研究提供了强有力的基准。

Sep, 2023