ACLMay, 2024

SpeechGuard: 多模态大型语言模型的对抗鲁棒性探索

TL;DR通过设计算法进行白盒和黑盒攻击以实现越狱,提出了对抗越狱攻击的对策,并展示了该对策显著降低攻击成功率。