May, 2024

视觉语言模型的安全对齐

TL;DR通过在两阶段训练过程中添加安全模块,包括安全投影仪、安全标记和安全头,我们提高了现有视觉语言模型的视觉安全对齐,有效提高了模型对危险图像的防御。