Oct, 2024

利用任务过载实现对大型语言模型的可扩展越狱攻击

TL;DR本研究解决了大型语言模型在越狱攻击中的脆弱性,现有方法无法灵活调整攻击强度。我们提出了一种新颖的可扩展越狱攻击,通过占用计算资源来预先触发安全政策的激活,以实现高成功率的安全措施绕过。实验结果表明,该方法在各种模型规模上都表现良好,揭示了当前LLM安全设计中的关键漏洞。