对敌对提示调整的鲁棒泛化问题的重新审视
通过引入 Adversarial Prompt Tuning (AdvPT) 技术,本研究旨在提升视觉 - 语言模型中图像编码器的对抗性鲁棒性,改善对抗攻击的脆弱性,并且结合现有的基于图像处理的防御技术,进一步提高其防御能力。
Nov, 2023
通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性,该方法被称为对抗提示调优(APT),通过简单地向提示中添加一个学习到的单词,可以显著提高准确性和鲁棒性(epsilon=4/255),平均分别提高 13% 和 8.5%。
Mar, 2024
通过设计两种类型的知识感知提示,离散提示和学习连续提示,以及视觉编码器的适应头部,实现针对视觉 - 语言模型的知识感知提示调整(KAPT)框架在少样本图像分类中的有效性和对未见类别的泛化能力。与最先进的 CoCoOp 方法相比,KAPT 在新类别中获得了 3.22% 的绝对增益和 2.57% 的调和均值增益。
Aug, 2023
本文提出一种名为 CoPrompt 的 fine-tuning 方法,用于提高大规模 foundation 模型在 few-shot 场景下 fine-tuning 过程中的泛化能力,实现方法包括强制任务输出一致性约束、在两个受扰动的输入之间进行一致性约束、并结合提示和适配器两种调整模式的优势来调整额外参数。实验表明,CoPrompt 在基于新颖类别、领域泛化以及跨数据集评估任务上均优于现有方法。
Jun, 2023
通过文本增强方法,不需要在对抗性示例上重新训练图像编码器,从而增强视觉 - 语言模型的稳健性,并且实验证明了在各种数据集上对预训练的 CLIP 模型的稳健性有显著改善。
Nov, 2023
通过测试时间提示调整范式优化学习提示的方式,该方法在下游任务中成功地减轻了依赖于潜在具有误导性的与任务无关的上下文信息,同时强调关键的与任务相关的视觉线索。
Mar, 2024
本文提出了一种新的对视觉和语言模型进行计数事实学习(counterfactual prompt learning,CPL)的方法,该方法同时采用反事实生成和对比学习的方法,在一个联合优化框架中从真实和反事实例子中学习更具有普适性的 prompt 表示。实验测试表明,CPL 在不同的视觉和语言任务上都可以获得优秀的 few-shot 性能。
Oct, 2022
本研究提出了预训练模型引导的对抗微调(PMG-AFT)方法,通过精心设计辅助分支,利用原始预训练模型的监督来增强模型的零样本对抗鲁棒性。对 15 个零样本数据集进行的广泛实验证明,PMG-AFT 在顶部 1 的抗干扰准确性方面显著优于最先进的方法,平均提高了 4.99%。此外,我们的方法还能持续改善干净准确性,平均提高了 8.72%。
Jan, 2024
视觉语言模型通过大规模训练数据学习了一种通用的文本 - 图像嵌入。通过少量样本的提示调整,可以将视觉语言模型适应到新的分类任务中。我们发现,这种提示调整过程对标签噪声非常稳健,且具有鲁棒性。
Jul, 2023