Oct, 2024

文本引导的注意力即是提升视觉-语言模型零-shot 鲁棒性的关键

TL;DR本研究解决了预训练视觉-语言模型(如 CLIP)在面对对抗样本时的脆弱性问题。我们提出了一种新颖的方法——文本引导注意力零-shot 鲁棒性框架(TGA-ZSR),通过引入注意力精炼模块和基于注意力的模型约束模块,显著提高了模型在16个数据集上的零-shot 鲁棒准确率,提升幅度达9.58%。