Apr, 2024
JailbreakLens:针对大型语言模型的越狱攻击的可视化分析
JailbreakLens: Visual Analysis of Jailbreak Attacks Against Large Language Models
Yingchaojie Feng, Zhizhang Chen, Zhining Kang, Sijia Wang, Minfeng Zhu...
TL;DR通过与领域专家合作,我们提出了一个辅助框架来简化对繁琐的破解分析过程,并设计了一个视觉分析系统,帮助用户评估模型安全性并识别模型弱点。