Jan, 2024

AttackEval:评估大型语言模型越狱攻击的有效性

TL;DR我们采用两种不同的评估框架来评估 GPT-4 和 LLaMa2 等大型语言模型上越狱攻击的有效性,并开发了一个专门针对越狱任务的综合数据集,为当前研究提供了关键基准,并在未来的研究中建立了一个基础资源。通过与传统评估方法的仔细比较,我们发现我们的评估方法与基准趋势保持一致,同时提供了更深入和详细的评估。我们相信,通过准确评估越狱任务中攻击提示的有效性,我们的工作为评估更广泛的类似或更复杂的提示注入任务奠定了坚实的基础,有望从根本上改变这个领域。