May, 2024

通过密码字符对大型语言模型进行越狱以对抗审核管控

TL;DR引入 JAMBench 作为一个有害行为基准测试,通过 160 个手工制作的指令来触发和评估适度保护措施;提出了 JAM 方法,通过越过输入级别的过滤器和生成密文字符来绕过输出级别的过滤器,攻击适度保护措施。经过对四个 LLMs 的广泛实验表明,JAM 比基准模型实现更高的越狱成功率(约 19.88 倍)和更低的过滤率(约 1/6 倍)。