Jun, 2024

通过双模式对抗启示破解视觉语言模型

TL;DR利用 Bi-Modal Adversarial Prompt Attack 方法,通过优化文字和视觉提示共同实施监狱突破攻击,大幅提高攻击成功率。