May, 2024

跨模态安全对齐:文本消除是否足够?

TL;DR将新的模态集成到大型语言模型(LLMs)中,如视觉 - 语言模型(VLMs),在绕过现有的安全训练技术(如 SFT 和 RLHF)的同时创造了一个新的攻击面。我们通过在文本领域进行反学习来实现跨模态安全对齐,实验证明在 VLMs 中进行文本反学习显著减少攻击成功率(ASR)至少低于 8%,甚至在某些情况下低至近 2%,同时保留实用性。