BriefGPT.xyz
Ask
alpha
关键词
red teaming llms
搜索结果 - 1
Tastle: 自动越狱攻击中的大型语言模型分散技术
我们提出了 Tastle,一种新颖的黑盒越狱框架,用于自动化红队攻击大型语言模型(LLMs),通过设计恶意内容隐藏和内存重构来破解 LLMs,实验证明了我们的框架在有效性、可扩展性和可转移性方面的优越性,并评估现有的越狱防御方法的有效性以及
→
PDF
4 months ago
Prev
Next