Nov, 2024
Zer0-Jack:一种内存高效的基于梯度的黑箱多模态大型语言模型越狱方法
Zer0-Jack: A Memory-efficient Gradient-based Jailbreaking Method for
Black-box Multi-modal Large Language Models
TL;DR本研究解决了黑箱多模态大型语言模型(MLLMs)安全性问题,尤其是在缺乏白箱访问的情况下。我们提出的Zer0-Jack方法通过利用零阶优化,采用补丁坐标下降技术,显著降低内存使用,同时在各种模型中实现高成功率,特别是在MiniGPT-4上达到了95%的攻击成功率,显示出其有效性和应用潜力。