为何视觉 - 语言模型的提示调整对噪声标签具有鲁棒性?
本研究提出了一种使用仅文本数据学习通用提示的方法,通过将 LLL(large language models)中的上下文数据映射到学习到的提示中,实现了零样本转移,并在 4 个基准测试上进行了广泛评估。
Jan, 2024
通过测试时间提示调整范式优化学习提示的方式,该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息,同时强调关键的与任务相关的视觉线索。
Mar, 2024
研究使用 CLIP 中的零样本伪标签作为监督来增强视觉 - 语言模型,发现半监督、零样本迁移和无监督学习可以视作优化相同损失函数的统一视图,进而开发出全面的跨学习范式适用的培训策略,同时找到未探索的提示调整策略可以通过迭代滴精细伪标签不断提高性能。
Jun, 2023
本文提出了一种无监督提示学习(UPL)方法,以避免提示工程并同时提高类似 CLIP 的视觉语言模型的传递性能。该方法实验结果显示,在 ImageNet 以及其他 10 个数据集上,与原始 CLIP 相比,UPL 具有更优秀的传输表现,并且增强版的 UPL 在大多数数据集上甚至能够与 8-shot CoOp 和 8-shot TIP-Adapter 竞争。
Apr, 2022
本文提出一种叫做测试时提示调整 (TPT) 的方法,可在单个测试样本上实时学习适应性提示,优化提前提供的 CLIP 模型动态调整提示, 以最小化模型预测时的不确定度,提高 CLIP 模型的泛化能力。实验结果表明,TPT 方法在自然情况下的 zero-shot top-1 准确率比以往方法的提升 3.6%,并达到了使用额外培训数据的最新先进方法的性能水平。
Sep, 2022
该研究系统研究了文本和视觉提示的参数微调方法。他们提出了一个名为 Unified Prompt Tuning (UPT) 的方法,通过学习一个微小的神经网络来联合优化跨不同模态的提示,并在 11 个视觉数据集上进行了强有力的测试,取得了较好的 few-shot learning 和 domain generalization 的效果。
Oct, 2022
通过文本增强方法,不需要在对抗性示例上重新训练图像编码器,从而增强视觉 - 语言模型的稳健性,并且实验证明了在各种数据集上对预训练的 CLIP 模型的稳健性有显著改善。
Nov, 2023
本研究提出一个新的模型 Prompt-Adapter,将预训练的提示调整与高效自适应网络相结合,用于高效的视觉 - 语言模型适应过程,超过公共数据集中少量数据情况下的现有方法,在此基础上,探讨了多任务预训练初始化与 prompt tuning 相结合的思想。
Mar, 2023
本文介绍了如何使用 CoOp, 一种基于学习来应用 CLIP vision-language 模型用于下游图像识别任务的简单方法,以解决使用自然语言描述类别来进行分类训练领域专业性强、耗时的问题,并证明其比手工制作的提示更好。
Sep, 2021
通过利用来自大型语言模型(LLM)的类别描述,我们引入了一种基于部分级别描述引导的图像和文本特征对齐方法,以构建更加可泛化的提示,并通过在 11 个基准数据集上的全面实验验证,超越了现有方法,取得了实质性的改进。
May, 2024