视觉-语言模型上的少样本对抗性提示学习
本研究旨在开发Adversarial Querying算法以生成对小样本图像分类具有鲁棒性的元学习器,并比较其与迁移学习方式的性能表现,结果表明在Mini-ImageNet和CIFAR-FS等图像分类任务上,该方法具有远优于传统迁移学习方法的鲁棒表现。
Oct, 2019
本篇研究对几种最先进的小样本学习方法进行了广泛的研究,以评估它们对敌对扰动的鲁棒性,结果表明相对于完全微调模型,普通的Few-shot学习方法在面对敌对扰动时表现出显著的下降,但使用(i)用于提示的未标记数据和(ii)多个提示扭转了这种趋势,并且增加少量样本的例数和模型大小可以增加其鲁棒性。
Jun, 2023
通过引入Adversarial Prompt Tuning (AdvPT)技术,本研究旨在提升视觉-语言模型中图像编码器的对抗性鲁棒性,改善对抗攻击的脆弱性,并且结合现有的基于图像处理的防御技术,进一步提高其防御能力。
Nov, 2023
通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性,该方法被称为对抗提示调优(APT),通过简单地向提示中添加一个学习到的单词,可以显著提高准确性和鲁棒性(epsilon=4/255),平均分别提高13%和8.5%。
Mar, 2024
通过多模态提示学习来提高图像和文本特征的对齐度,利用预训练的 CLIP 强大的泛化能力,引导模型在对抗性示例上增强鲁棒泛化能力,同时在干净示例上保持准确性。
May, 2024
通过引入一种新的文本图像相互感知(TIMA)方法,这项工作提出了一种旨在在大规模基础模型中实现零-shot对抗鲁棒性并保持零-shot泛化的挑战,重点关注流行的对比语言图像预训练(CLIP)模型。该方法在小型对抗扰动下在零-shot对抗鲁棒性和泛化之间取得了可比的良好权衡,但在大型对抗扰动下未能实现良好的权衡。该方法在文本嵌入之间增加了最小超球能量(MHE)以提高文本嵌入的跨类别距离,并利用知识蒸馏保持了MHE调整后和原始文本嵌入之间的相似性,以保留不同类别之间的语义信息。此外,该方法还引入了一种文本感知图像(TAI)调整机制,在训练阶段通过基于文本距离的自适应边界(TAM)增加了图像嵌入之间的跨类别距离,并利用知识蒸馏保持了Fine-tuning后和预训练图像嵌入之间的相似性。广泛的实验结果证明了该方法的有效性,在防御各种对抗扰动的同时,保持了原始CLIP模型的零-shot泛化能力。
May, 2024
通过使用梯度方法对视觉和文本上下文进行干扰,Contextual-Injection Attack(CIA)可以将目标标记注入视觉和文本环境,从而改善目标标记的概率分布,进而增强对抗图像的跨提示可迁移性,对于视觉-语言模型(VLMs)中的更有效的对抗策略具有潜力。
Jun, 2024
本研究针对预训练视觉语言模型(如CLIP)在面临对抗样本时的脆弱性问题,提出了一种名为“零样本鲁棒性的文本引导注意力”(TGA-ZSR)的新策略。通过对注意力的精炼和模型约束模块的设计,本方法显著提高了模型在对抗样本下的鲁棒性,并在16个数据集上相较于现有技术提升了9.58%的零样本鲁棒准确率。
Oct, 2024
本研究解决了预训练视觉-语言模型(如 CLIP)在面对对抗样本时的脆弱性问题。我们提出了一种新颖的方法——文本引导注意力零-shot 鲁棒性框架(TGA-ZSR),通过引入注意力精炼模块和基于注意力的模型约束模块,显著提高了模型在16个数据集上的零-shot 鲁棒准确率,提升幅度达9.58%。
Oct, 2024