May, 2024

学会看但忘记跟随:视觉指令调整使 LLMs 更容易遭受越狱攻击

TL;DR研究通过图像理解扩展大型语言模型(LLMs)已经产生了高性能的视觉语言模型(VLMs)。虽然研究 LLMs 与人类价值观的一致性已经得到了广泛的关注,但 VLMs 的安全性却未受到同样的关注。本文探讨了越狱对三种最先进的 VLMs 的影响,每种 VLM 都使用了不同的建模方法。通过将每个 VLM 与其相应的 LLM 骨干进行比较,我们发现每个 VLM 更容易受到越狱的影响。我们认为这是从视觉指导调整中产生的对 LLM 安全规则的遗忘效应,这是一个不可取的结果。因此,我们提供了基于评估策略的未来工作建议,旨在凸显 VLM 的弱点,并在视觉指导调整期间考虑安全措施。