CLAP:对预先训练的视觉语言模型鲁棒性的增强提示对比学习
通过对现有的预训练模型进行全面评估和改进,本研究提出了一种名为 Mango 的方法,在嵌入空间中学习多模态对抗性噪声生成器,使得预训练的视觉-语言模型的鲁棒性得到了大幅度提升,并在七项鲁棒性测试中创造了新的最高水平。
Dec, 2020
本文提出一种新的视觉语言模型fine-tuning方式——CLIP-Adapter,通过在原训练模型上加入新特征层并进行残差式混合来实现,在各种视觉分类任务中表现优异,优于context optimization
Oct, 2021
通过实验研究,我们发现对比训练语言-图像模型的鲁棒性提高的主要因素是训练分布的多样性,而其他因素对鲁棒性几乎没有贡献。除了我们的实验结果,我们还介绍了ImageNet-Captions,这是带有来自Flickr的原始文本注释的ImageNet版本,以进一步进行语言-图像训练的受控实验。
May, 2022
本研究通过将多尺度图像特征集成到提示中,提出了一种对于分布偏移具有鲁棒性的提示学习方法,实验结果表明,这种方法在多个基准测试数据集上的鲁棒性和性能有所提高。
Apr, 2023
通过创建 CompPrompts 数据集的方法,研究了视觉-语言模型的编码模式对语言信息的损失情况,并提出了基于文本恢复的方法和 ControlledImCaps 评估基准,发现文本恢复能力与模型适用于呈现目标属性关系、计数、否定和多目标交互等复合要素的能力相关性强,并表明这是对偶视觉+语音模型的必要条件。
May, 2023
该研究全面调查了Contrastive Language-Image Pre-training (CLIP)模型的安全目标,特别关注三个关键属性:对视觉因素变化的弹性,校准的不确定性估计以及检测异常输入的能力。研究揭示了CLIP模型的一些以前未知的见解,并强调了训练源设计的重要性及其对三个安全相关属性的深远影响。该全面研究有助于引导更加稳健可靠的CLIP模型的发展。
Feb, 2024
通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性,该方法被称为对抗提示调优(APT),通过简单地向提示中添加一个学习到的单词,可以显著提高准确性和鲁棒性(epsilon=4/255),平均分别提高13%和8.5%。
Mar, 2024
通过研究视觉语言模型(VLMs)的自适应对抗性鲁棒性,我们引入了一种多模态对抗性攻击策略,并在图像和文本编码器上采用多模态对比对抗性训练损失,以提高CLIP的对抗性鲁棒性。在15个数据集上进行的广泛实验表明,我们的方法显著提高了CLIP的对抗性鲁棒性,甚至在图像攻击的背景下,经过多模态对抗性攻击的模型表现出比仅进行图像攻击微调的模型更高的鲁棒性。
Apr, 2024
本研究针对预训练视觉语言模型(如CLIP)在面临对抗样本时的脆弱性问题,提出了一种名为“零样本鲁棒性的文本引导注意力”(TGA-ZSR)的新策略。通过对注意力的精炼和模型约束模块的设计,本方法显著提高了模型在对抗样本下的鲁棒性,并在16个数据集上相较于现有技术提升了9.58%的零样本鲁棒准确率。
Oct, 2024
本研究解决了预训练视觉-语言模型(如 CLIP)在面对对抗样本时的脆弱性问题。我们提出了一种新颖的方法——文本引导注意力零-shot 鲁棒性框架(TGA-ZSR),通过引入注意力精炼模块和基于注意力的模型约束模块,显著提高了模型在16个数据集上的零-shot 鲁棒准确率,提升幅度达9.58%。
Oct, 2024