Oct, 2024

揭示与缓解视觉-语言模型的安全对齐退化

TL;DR本研究解决了视觉-语言模型(VLMs)在整合视觉模块后安全对齐能力退化的问题,称为“安全对齐退化”。通过引入跨模态表征操控(CMRM)方法,研究显示该方法能显著恢复VLMs的安全对齐能力,同时保持其功能性。实证结果表明,该方法有效降低多模态输入的不安全率,具有重要的实际应用价值。