Sep, 2024

通过强健编码器增强视觉-语言模型的安全性以抵御越狱和对抗攻击

TL;DR本研究解决了大型视觉-语言模型(LVLMs)在面临越狱和对抗攻击时的脆弱性问题。提出的Sim-CLIP+防御机制通过利用Siamese架构对CLIP视觉编码器进行对抗微调,显著提升了模型的抗攻击能力。实验结果表明,Sim-CLIP+在保持高准确率的同时,有效抵御了多种攻击方式,具有良好的实际应用价值。