Apr, 2024

CyberSecEval 2: 大型语言模型的广泛网络安全评估套件

TL;DR大型语言模型引入新的安全风险,但缺乏综合评估套件来衡量和减少这些风险。我们提出了 BenchmarkName,这是一个用于量化 LLM 安全风险和能力的新型基准。我们介绍了两个新领域的测试:提示注入和代码解释器滥用。我们评估了多种最先进的 LLMs,包括 GPT-4、Mistral、Meta Llama 3 70B-Instruct 和 Code Llama。我们的结果表明,消除攻击风险的条件仍然是一个尚未解决的问题;例如,所有测试模型在成功的提示注入测试中显示出 26% 到 41% 之间的结果。我们进一步引入了安全效用权衡:将 LLM 条件化以拒绝不安全的提示可能导致 LLM 错误地拒绝回答良性提示,从而降低效用。我们建议使用 False Refusal Rate(FRR)来量化这种权衡。作为示例,我们引入了一个新的测试集来量化网络攻击有用性风险的 FRR。我们发现,许多 LLMs 能够与 “边界线” 良性请求成功地相符,同时拒绝大部分不安全的请求。最后,我们量化了 LLMs 在自动化核心网络安全任务(例如利用软件漏洞)方面的效用。这很重要,因为 LLMs 的进攻能力引起了极大的兴趣;我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型,但 LLMs 在利用生成方面还需要进一步的工作。我们的代码是开源的,可以用于评估其他 LLMs。