Mar, 2024
EasyJailbreak:面向大型语言模型的统一越狱框架
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models
Weikang Zhou, Xiao Wang, Limao Xiong, Han Xia, Yingshuang Gu...
TL;DREasyJailbreak 是一个统一的框架,简化了对大型语言模型的越狱攻击的构建和评估,支持 11 种不同的越狱方法,并揭示了各种越狱攻击下 10 种不同语言模型的平均漏洞概率为 60%,GPT-3.5-Turbo 和 GPT-4 的平均攻击成功率分别为 57% 和 33%。