Nov, 2024

快速响应:通过少量示例缓解大型语言模型越狱攻击

TL;DR本研究解决了大型语言模型(LLMs)在面对越狱攻击时的安全性问题,提出了一种新的快速响应方法,可以在观察到少数攻击示例后,阻止多个越狱类别。我们的研究表明,精细调优输入分类器的有效方法显著降低了攻击成功率,显示了快速应对新型越狱攻击的潜力,以限制大型语言模型的误用。