Oct, 2024
通过良性数据镜像的隐蔽性越狱攻击大型语言模型
Stealthy Jailbreak Attacks on Large Language Models via Benign Data
Mirroring
TL;DR本研究解决了大型语言模型安全性研究中越狱攻击方法的不足。我们提出了一种改进的迁移攻击方法,通过良性数据蒸馏局部训练目标黑箱模型的镜像,实现恶意提示构建,从而提高了隐蔽性。研究发现,该方法在针对GPT-3.5 Turbo的攻击成功率最高可达92%,强调了需要更强大的防御机制。