文本引导的注意力即是提升视觉-语言模型零-shot 鲁棒性的关键
本研究分析了基于大规模数据的视觉-语言模型的真正零样本能力及其属性基零样本学习能力,评估了现有模型对不同基准测试的性能表现及影响因素。结果表明该模型主要通过识别语言中的类标签实现零样本学习,属性数的变化会显著影响其表现。
Sep, 2022
在具有有限训练数据并在分布转变下无法有效推广的情况下,传统的迁移学习方法效果有限。然而,最近的基础模型在分布转变下表现出了令人印象深刻的零样本推理能力和鲁棒性。为了解决这些问题,在此提出了一种适用于流行的视觉-语言基础模型CLIP的小样本微调方法,并对具有现实分布转变的具有挑战性的基准数据集进行了评估。实验证明,在训练数据供应的各个级别上,与只有视觉的模型相比,少样本CLIP微调在内部分布准确性和外部分布准确性方面表现更好,这为在使用真实世界数据的小样本学习应用中采用基础模型提供了强有力的动机。
Nov, 2023
通过文本增强方法,不需要在对抗性示例上重新训练图像编码器,从而增强视觉-语言模型的稳健性,并且实验证明了在各种数据集上对预训练的CLIP模型的稳健性有显著改善。
Nov, 2023
本研究提出了预训练模型引导的对抗微调(PMG-AFT)方法,通过精心设计辅助分支,利用原始预训练模型的监督来增强模型的零样本对抗鲁棒性。对15个零样本数据集进行的广泛实验证明,PMG-AFT在顶部1的抗干扰准确性方面显著优于最先进的方法,平均提高了4.99%。此外,我们的方法还能持续改善干净准确性,平均提高了8.72%。
Jan, 2024
通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性,该方法被称为对抗提示调优(APT),通过简单地向提示中添加一个学习到的单词,可以显著提高准确性和鲁棒性(epsilon=4/255),平均分别提高13%和8.5%。
Mar, 2024
基于大规模的鲁棒性基准测试,本研究通过评估CLIP模型在自然分布偏移和对抗攻击下的性能,发现零样本多模态模型的鲁棒性明显不足,强调了对零样本多模态模型的鲁棒性进行改进的重要性。
Mar, 2024
通过限制数据和提供对抗文本监督,提出了一种少样本对抗提示框架,该框架在提高对抗鲁棒性方面表现出卓越的能力,并在仅使用1%的训练数据时,达到了与最先进的零样本对抗鲁棒性相匹配的水平。
Mar, 2024
通过研究大型视觉-语言模型,特别是CLIP,有效的调整技术,主要关注软提示调整,这催生了一系列研究。与此同时,测试时数据增强正在成为一个重要的研究领域,它利用图像的多个增强视角来增强零样本泛化能力。相反,我们提出了一种用于测试时数据增强的稳健均值漂移(MTA)方法,它超越了基于提示的方法,而无需进行繁琐的训练过程。此方法是独立和基于API的应用的理想解决方案。此外,我们的方法不依赖于一些先前测试时数据增强技术中使用的临界规则(例如置信度阈值)来过滤增强视角。相反,MTA将每个视角的质量评估变量直接融入其优化过程中,称为内在得分。这个得分与密度模式寻找过程一起进行优化,从而实现了一种高效的无需训练和调整超参数的方法。我们在15个数据集上进行了广泛的基准测试,并展示了MTA的优越性和计算效率。MTA可以轻松部署在零样本模型和最新的少样本方法之上,展示了系统和一致的改进。
May, 2024
通过引入一种新的文本图像相互感知(TIMA)方法,这项工作提出了一种旨在在大规模基础模型中实现零-shot对抗鲁棒性并保持零-shot泛化的挑战,重点关注流行的对比语言图像预训练(CLIP)模型。该方法在小型对抗扰动下在零-shot对抗鲁棒性和泛化之间取得了可比的良好权衡,但在大型对抗扰动下未能实现良好的权衡。该方法在文本嵌入之间增加了最小超球能量(MHE)以提高文本嵌入的跨类别距离,并利用知识蒸馏保持了MHE调整后和原始文本嵌入之间的相似性,以保留不同类别之间的语义信息。此外,该方法还引入了一种文本感知图像(TAI)调整机制,在训练阶段通过基于文本距离的自适应边界(TAM)增加了图像嵌入之间的跨类别距离,并利用知识蒸馏保持了Fine-tuning后和预训练图像嵌入之间的相似性。广泛的实验结果证明了该方法的有效性,在防御各种对抗扰动的同时,保持了原始CLIP模型的零-shot泛化能力。
May, 2024
本研究针对预训练视觉语言模型(如CLIP)在面临对抗样本时的脆弱性问题,提出了一种名为“零样本鲁棒性的文本引导注意力”(TGA-ZSR)的新策略。通过对注意力的精炼和模型约束模块的设计,本方法显著提高了模型在对抗样本下的鲁棒性,并在16个数据集上相较于现有技术提升了9.58%的零样本鲁棒准确率。
Oct, 2024