Nov, 2024

Zer0-Jack:一种内存高效的基于梯度的黑箱多模态大型语言模型越狱方法

TL;DR本研究解决了黑箱多模态大型语言模型(MLLMs)安全性问题,尤其是在缺乏白箱访问的情况下。我们提出的Zer0-Jack方法通过利用零阶优化,采用补丁坐标下降技术,显著降低内存使用,同时在各种模型中实现高成功率,特别是在MiniGPT-4上达到了95%的攻击成功率,显示出其有效性和应用潜力。