为何视觉 - 语言模型的提示调整对噪声标签具有鲁棒性？

ICCVJul, 2023

为何视觉 - 语言模型的提示调整对噪声标签具有鲁棒性？

Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?

Cheng-En Wu, Yu Tian, Haichao Yu, Heng Wang, Pedro Morgado...

TL;DR视觉语言模型通过大规模训练数据学习了一种通用的文本 - 图像嵌入。通过少量样本的提示调整，可以将视觉语言模型适应到新的分类任务中。我们发现，这种提示调整过程对标签噪声非常稳健，且具有鲁棒性。

Abstract

vision-language models such as CLIP learn a generic text-image embedding from large-scale training data. A vision-language model can be adapted to a new classification task through →

vision-language models few-shot prompt tuning label noises classification zero-shot predictions

发现论文，激发创造

仅使用文本监督在视觉 - 语言模型中学习提示

本研究提出了一种使用仅文本数据学习通用提示的方法，通过将 LLL（large language models）中的上下文数据映射到学习到的提示中，实现了零样本转移，并在 4 个基准测试上进行了广泛评估。

Jan, 2024

视觉语言模型泛化的不变测试时间适应

通过测试时间提示调整范式优化学习提示的方式，该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息，同时强调关键的与任务相关的视觉线索。

Mar, 2024

使用 CLIP 增强 CLIP：探索有限标签提示微调的伪标签方法

研究使用 CLIP 中的零样本伪标签作为监督来增强视觉 - 语言模型，发现半监督、零样本迁移和无监督学习可以视作优化相同损失函数的统一视图，进而开发出全面的跨学习范式适用的培训策略，同时找到未探索的提示调整策略可以通过迭代滴精细伪标签不断提高性能。

Jun, 2023

视觉语言模型的无监督提示学习

本文提出了一种无监督提示学习（UPL）方法，以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示，在 ImageNet 以及其他 10 个数据集上，与原始 CLIP 相比，UPL 具有更优秀的传输表现，并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。

Apr, 2022

视觉 - 语言模型中零 - shot 泛化的测试时提示调整

本文提出一种叫做测试时提示调整 (TPT) 的方法，可在单个测试样本上实时学习适应性提示，优化提前提供的 CLIP 模型动态调整提示，以最小化模型预测时的不确定度，提高 CLIP 模型的泛化能力。实验结果表明，TPT 方法在自然情况下的 zero-shot top-1 准确率比以往方法的提升 3.6％，并达到了使用额外培训数据的最新先进方法的性能水平。

Sep, 2022

统一视觉与语言提示学习

该研究系统研究了文本和视觉提示的参数微调方法。他们提出了一个名为 Unified Prompt Tuning (UPT) 的方法，通过学习一个微小的神经网络来联合优化跨不同模态的提示，并在 11 个视觉数据集上进行了强有力的测试，取得了较好的 few-shot learning 和 domain generalization 的效果。

Oct, 2022

CLAP：对预先训练的视觉语言模型鲁棒性的增强提示对比学习

通过文本增强方法，不需要在对抗性示例上重新训练图像编码器，从而增强视觉 - 语言模型的稳健性，并且实验证明了在各种数据集上对预训练的 CLIP 模型的稳健性有显著改善。

Nov, 2023

基于 Prompt 调整的视觉 - 语言模型适应器

本研究提出一个新的模型 Prompt-Adapter，将预训练的提示调整与高效自适应网络相结合，用于高效的视觉 - 语言模型适应过程，超过公共数据集中少量数据情况下的现有方法，在此基础上，探讨了多任务预训练初始化与 prompt tuning 相结合的思想。

Mar, 2023

视觉语言模型的提示学习

本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法，以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题，并证明其比手工制作的提示更好。

Sep, 2021

改进提示调整中的文本语义是否可以提高 VLM 的泛化能力？

通过利用来自大型语言模型（LLM）的类别描述，我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法，以构建更加可泛化的提示，并通过在 11 个基准数据集上的全面实验验证，超越了现有方法，取得了实质性的改进。

May, 2024