Apr, 2025

越狱税:你的越狱输出有多有用?

TL;DR本研究针对越狱攻击绕过大型语言模型的安全防护机制,评估现有越狱输出的实际效用。通过建立新的越狱评估集,结果显示越狱响应普遍降低了模型的效用,提出了"越狱税"这一概念,强调在AI安全性中的重要性,并为未来的越狱评估提供基准。