CYBERSECEVAL 3:推进大语言模型网络安全风险与能力的评估
利用语言模型(LLMs)进行特权升级,在渗透测试领域的能力和挑战上进行研究,介绍了一个基于 LLMS 的特权升级工具,评估不同 LLMS 和提示策略的性能,分析了不同提示设计、上下文学习的优势以及向 LLMS 提供高级指导的好处,讨论了在测试过程中保持关注力、处理错误以及与随机模型和人类黑客进行对比等挑战性领域。
Oct, 2023
CyberSecEval是一个全面的基准测试,用于增强作为编程助手的大型语言模型(LLMs)的网络安全。通过对七个模型进行案例研究,CyberSecEval成功地确定了关键的网络安全风险,并提供了改进这些模型的实用见解,强调了在开发复杂LLMs时整合安全考虑的重要性。
Dec, 2023
介绍了CyberMetric,这是一个包含10,000个问题的基准数据集,通过合作过程结合人类专家知识和大型语言模型(LLMs)来创建问题,主要目标是在网络安全领域中促进人类和不同LLMs之间的公平比较,结果显示LLMs在几乎所有网络安全方面表现优于人类。
Feb, 2024
大型语言模型引入新的安全风险,但缺乏综合评估套件来衡量和减少这些风险。我们提出了BenchmarkName,这是一个用于量化LLM安全风险和能力的新型基准。我们介绍了两个新领域的测试:提示注入和代码解释器滥用。我们评估了多种最先进的LLMs,包括GPT-4、Mistral、Meta Llama 3 70B-Instruct和Code Llama。我们的结果表明,消除攻击风险的条件仍然是一个尚未解决的问题;例如,所有测试模型在成功的提示注入测试中显示出26%到41%之间的结果。我们进一步引入了安全效用权衡:将LLM条件化以拒绝不安全的提示可能导致LLM错误地拒绝回答良性提示,从而降低效用。我们建议使用False Refusal Rate(FRR)来量化这种权衡。作为示例,我们引入了一个新的测试集来量化网络攻击有用性风险的FRR。我们发现,许多LLMs能够与“边界线”良性请求成功地相符,同时拒绝大部分不安全的请求。最后,我们量化了LLMs在自动化核心网络安全任务(例如利用软件漏洞)方面的效用。这很重要,因为LLMs的进攻能力引起了极大的兴趣;我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型,但LLMs在利用生成方面还需要进一步的工作。我们的代码是开源的,可以用于评估其他LLMs。
Apr, 2024
通过系统文献综述,本文研究了大型语言模型在网络安全领域的构建、应用、挑战等关键问题,并探讨了其在提高网络安全实践中的广泛潜力,成为应用于该领域的有价值的资源。
May, 2024
大型语言模型(LLMs)在网络安全应用中显示出潜力,但也因幻觉和缺乏真实性等问题导致信心下降。现有的基准测试提供了一般评估,但不能充分解决LLMs在网络安全特定任务中的实际应用方面的问题。为了填补这个空白,我们引入了SECURE(安全提取、理解与推理评估)基准测试,该基准测试旨在评估LLMs在现实网络安全场景中的性能。SECURE包括六个数据集,重点关注工业控制系统领域,以评估基于行业标准来源的知识提取、理解和推理。我们的研究评估了七种最先进的模型在这些任务上的表现,为改进LLMs作为网络咨询工具的可靠性提供了见解和建议。
May, 2024
我们开发了一种创新方法来评估大型语言模型(LLMs)在解决网络安全中的夺旗挑战方面的能力,通过创建一个专门针对这些应用设计的可扩展的开源基准数据库。利用LLMs的高级函数调用能力,我们构建了一个完全自动化的系统,具有改进的工作流程和对外部工具调用的支持。通过提供专门的数据集,我们的项目为开发、测试和改进基于LLMs的漏洞检测和解决方法提供了理想的平台。通过在这些挑战上评估LLMs并与人类表现进行比较,我们可以洞察AI驱动的网络安全解决方案在现实世界威胁管理方面的潜力。
Jun, 2024