May, 2024

基于逻辑回归的令牌级操作的破解方法:Lockpicking LLMs

TL;DR大型语言模型(LLMs)已经改变了自然语言处理领域,但它们仍然容易受到越狱攻击的影响,这种攻击利用了它们生成意外和潜在有害内容的能力。我们通过介绍 JailMine,一种有效应对这些限制的创新的基于令牌水平操作的方法,通过自动化的 “挖掘” 过程从 LLMs 中引发恶意响应,从而解决了现有基于令牌水平的越狱技术所面临的可扩展性和效率挑战。通过在多个知名 LLMs 和数据集上进行严格测试,我们证明了 JailMine 的有效性和效率,在保持高成功率(平均 95%)的同时,平均时间消耗大幅减少了 86%,即使面对不断进化的防御策略。我们的工作为评估和减轻 LLMs 对越狱攻击的脆弱性作出了贡献,强调了继续保持警惕和采取积极措施以增强这些强大语言模型的安全性和可靠性的重要性。