Mar, 2024

EasyJailbreak:面向大型语言模型的统一越狱框架

TL;DREasyJailbreak 是一个统一的框架,简化了对大型语言模型的越狱攻击的构建和评估,支持 11 种不同的越狱方法,并揭示了各种越狱攻击下 10 种不同语言模型的平均漏洞概率为 60%,GPT-3.5-Turbo 和 GPT-4 的平均攻击成功率分别为 57% 和 33%。