面向视觉 - 语言模型的分布感知提示调整

ICCVSep, 2023

面向视觉 - 语言模型的分布感知提示调整

Distribution-Aware Prompt Tuning for Vision-Language Models

Eulrang Cho, Jooyeon Kim, Hyunwoo J. Kim

TL;DR通过学习大规模数据的知识，预训练的视觉 - 语言模型（VLMs）在各种下游任务中表现出色。本文提出了分布感知的提示微调（DAPT），通过对齐两种模态之间的特征空间，并对每种模态的嵌入进行良好排列，显著改善了模型的泛化能力。

Abstract

pre-trained vision-language models (VLMs) have shown impressive performance on various downstream tasks by utilizing knowledge learned from large data. In general, the performance of VLMs on target tasks can be further improved by →

pre-trained vision-language models prompt tuning feature space alignment distribution-aware prompt tuning generalizability

发现论文，激发创造

用于视觉语言预训练模型的近似提示调优

本研究提出了一种名为 “Approximated Prompt Tuning” 的方法，用以提高视觉语言预训练模型的迁移学习效率，其基于软提示令牌的独立信息扩散步骤，从而有效地避免了昂贵的全局关注建模，并显著降低了计算复杂度。

Jun, 2023

双对齐下的上下文感知视觉 - 语言模型提示调优

利用双重对齐提示调整 (DuAl-PT)，结合大规模视觉语言模型和预训练大型语言模型，在少样本识别和基于新样本泛化上取得了卓越的性能，为未来研究提供了强有力的基准。

Sep, 2023

基于 Prompt 调整的视觉 - 语言模型适应器

本研究提出一个新的模型 Prompt-Adapter，将预训练的提示调整与高效自适应网络相结合，用于高效的视觉 - 语言模型适应过程，超过公共数据集中少量数据情况下的现有方法，在此基础上，探讨了多任务预训练初始化与 prompt tuning 相结合的思想。

Mar, 2023

视觉 - 语言模型的对抗提示调整

通过引入 Adversarial Prompt Tuning (AdvPT) 技术，本研究旨在提升视觉 - 语言模型中图像编码器的对抗性鲁棒性，改善对抗攻击的脆弱性，并且结合现有的基于图像处理的防御技术，进一步提高其防御能力。

Nov, 2023

多任务视觉语言提示微调

本文提出了一种多任务视觉语言提示调整（MVLPT）方法，将跨任务知识纳入提示调整算法中，其结果在 20 个视觉任务上的表现优于现有方法。

Nov, 2022

改进提示调整中的文本语义是否可以提高 VLM 的泛化能力？

通过利用来自大型语言模型（LLM）的类别描述，我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法，以构建更加可泛化的提示，并通过在 11 个基准数据集上的全面实验验证，超越了现有方法，取得了实质性的改进。

May, 2024

通过动态视觉提示将预训练语言模型应用于视觉语言任务

本文旨在研究使用预训练语言模型（Pre-trained language models，PLMs）作为一个独立的模型来进行视觉语言推理任务。提出了一个名为 Dynamic Visual Prompting（DVP）的新型转移学习方法，通过搜索算法，在保持 PLMs 参数完整性的情况下，有效地将其与不同的视觉语言任务相结合。经过广泛的实验验证，DVP 在效率和性能方面都具有优势，并且能够很好地适应预训练语言模型与 VL 任务相结合的需求。

Jun, 2023

统一视觉与语言提示学习

该研究系统研究了文本和视觉提示的参数微调方法。他们提出了一个名为 Unified Prompt Tuning (UPT) 的方法，通过学习一个微小的神经网络来联合优化跨不同模态的提示，并在 11 个视觉数据集上进行了强有力的测试，取得了较好的 few-shot learning 和 domain generalization 的效果。

Oct, 2022

分布式学习

提出了基于提示分布学习的方法，从而通过有效地适应先前训练的视觉 - 语言模型来处理下游的识别任务，该方法不仅从少量样本中学习低偏差的提示，而且还捕获多种提示的分布以处理不同的视觉表示。

May, 2022

DAP：面向领域感知的视觉与语言导航提示学习

通过引入低成本提示调整范式来学习特定领域视觉提示，我们提出了一种新颖且模型无关的领域感知提示学习（DAP）框架，以在 VLN 任务中为预训练模型提供特定对象级和场景级跨模态对齐，并将领域内视觉知识以高效的方式注入预训练模型的视觉编码器。在 R2R 和 REVERIE 上的实验结果显示，DAP 相比现有的最先进方法具有明显的优势。

Nov, 2023