Apr, 2024

JailbreakLens:针对大型语言模型的越狱攻击的可视化分析

TL;DR通过与领域专家合作,我们提出了一个辅助框架来简化对繁琐的破解分析过程,并设计了一个视觉分析系统,帮助用户评估模型安全性并识别模型弱点。