Jul, 2024

Sim-CLIP:无监督的Siamese对抗微调用于增强视觉语言模型的鲁棒性和语义丰富性

TL;DR本研究针对视觉语言模型在多模态任务中易受对抗攻击这一问题,提出了Sim-CLIP,这是一个无监督的对抗微调方法,旨在增强CLIP视觉编码器的鲁棒性,同时保持语义丰富性。研究表明,采用Sim-CLIP微调的CLIP编码器能显著提高视觉语言模型对对抗攻击的抗性,并且无需额外的训练步骤,简单替换编码器即可提高鲁棒性。