紫色羊驼网络安全评估：面向语言模型的安全编码基准

Dec, 2023

紫色羊驼网络安全评估：面向语言模型的安全编码基准

Purple Llama CyberSecEval: A Secure Coding Benchmark for Language Models

Manish Bhatt, Sahana Chennabasappa, Cyrus Nikolaidis, Shengye Wan, Ivan Evtimov...

TL;DRCyberSecEval 是一个全面的基准测试，用于增强作为编程助手的大型语言模型（LLMs）的网络安全。通过对七个模型进行案例研究，CyberSecEval 成功地确定了关键的网络安全风险，并提供了改进这些模型的实用见解，强调了在开发复杂 LLMs 时整合安全考虑的重要性。

Abstract

This paper presents cyberseceval, a comprehensive benchmark developed to help bolster the cybersecurity of →

cyberseceval benchmark large language models cybersecurity insecure code

发现论文，激发创造

CyberSecEval 2: 大型语言模型的广泛网络安全评估套件

大型语言模型引入新的安全风险，但缺乏综合评估套件来衡量和减少这些风险。我们提出了 BenchmarkName，这是一个用于量化 LLM 安全风险和能力的新型基准。我们介绍了两个新领域的测试：提示注入和代码解释器滥用。我们评估了多种最先进的 LLMs，包括 GPT-4、Mistral、Meta Llama 3 70B-Instruct 和 Code Llama。我们的结果表明，消除攻击风险的条件仍然是一个尚未解决的问题；例如，所有测试模型在成功的提示注入测试中显示出 26% 到 41% 之间的结果。我们进一步引入了安全效用权衡：将 LLM 条件化以拒绝不安全的提示可能导致 LLM 错误地拒绝回答良性提示，从而降低效用。我们建议使用 False Refusal Rate（FRR）来量化这种权衡。作为示例，我们引入了一个新的测试集来量化网络攻击有用性风险的 FRR。我们发现，许多 LLMs 能够与 “边界线” 良性请求成功地相符，同时拒绝大部分不安全的请求。最后，我们量化了 LLMs 在自动化核心网络安全任务（例如利用软件漏洞）方面的效用。这很重要，因为 LLMs 的进攻能力引起了极大的兴趣；我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型，但 LLMs 在利用生成方面还需要进一步的工作。我们的代码是开源的，可以用于评估其他 LLMs。

Apr, 2024

安全性：为网络安全咨询评估生成式大型语言模型

大型语言模型（LLMs）在网络安全应用中显示出潜力，但也因幻觉和缺乏真实性等问题导致信心下降。现有的基准测试提供了一般评估，但不能充分解决 LLMs 在网络安全特定任务中的实际应用方面的问题。为了填补这个空白，我们引入了 SECURE（安全提取、理解与推理评估）基准测试，该基准测试旨在评估 LLMs 在现实网络安全场景中的性能。SECURE 包括六个数据集，重点关注工业控制系统领域，以评估基于行业标准来源的知识提取、理解和推理。我们的研究评估了七种最先进的模型在这些任务上的表现，为改进 LLMs 作为网络咨询工具的可靠性提供了见解和建议。

May, 2024

网络统计：用于评估大型语言模型在网络安全领域的基准数据集

介绍了 CyberMetric，这是一个包含 10,000 个问题的基准数据集，通过合作过程结合人类专家知识和大型语言模型（LLMs）来创建问题，主要目标是在网络安全领域中促进人类和不同 LLMs 之间的公平比较，结果显示 LLMs 在几乎所有网络安全方面表现优于人类。

Feb, 2024

使用 SALLMS 评估 LLM 生成代码的安全性

作者描述了一个名为 SALLM 的框架，用于系统地评估大型语言模型生成安全代码的能力，该框架包括一个安全中心的 Python 提示的新数据集，一个用于测试生成代码的评估环境，以及用于从安全代码生成的角度评估模型性能的新度量标准。

Nov, 2023

S-Eval: 大型语言模型安全评估的自动化和自适应测试生成

在这项工作中，我们提出了 S-Eval，这是一个新的全面、多维度且开放的安全评估基准，通过训练专家测试的大型语言模型 Mt 与一系列测试选择策略相结合，自动构建了一个高质量的测试套件用于安全评估。该论文还介绍了一个四级的风险分类体系，覆盖了全面多维的安全风险，同时提供了灵活配置和适应新风险、攻击和模型的能力。S-Eval 在 20 个流行和代表性的大型语言模型上进行了广泛评估，结果表明相比现有的基准，S-Eval 可以更好地反映和提供大型语言模型的安全风险信息。

May, 2024

L2CEval: 评估大型语言模型的语言到代码生成能力

最近，大型语言模型（LLMs），特别是那些在代码上进行预训练的模型，展现出了从自然语言输入中以少量甚至无需样本的方式生成程序的强大能力。然而，这些模型的语言到代码生成能力缺乏全面的评估。本研究通过 L2CEval 系统地评估了 LLMs 在 7 个任务（包括语义解析、数学推理和 Python 编程）中的语言到代码生成能力，分析了可能影响它们性能的因素，如模型大小、预训练数据、指令调整和不同的提示方法。除了评估模型性能，我们还衡量了模型的置信度校准情况，并对输出的程序进行人工评估。这使我们能够识别并分析各种任务和模型的典型失败模式。L2CEval 提供了对 LLMs 在语言到代码生成方面能力和限制的全面了解。同时，我们还发布了评估框架和所有模型输出，希望为今后在该领域的进一步研究奠定基础。

Sep, 2023

加强大型语言模型进行安全代码生成：基于数据集的漏洞缓解研究

大型语言模型（LLMs）在代码生成方面取得了显著进展，但它们的训练使用了来自开源代码库（如 GitHub）的未经筛选的数据，存在意外传播安全漏洞的风险。为了有效地减轻这一问题，本文从软件安全的角度对代码 LLMs 进行了全面研究，并提出了 SecuCoGen 数据集，用于评估和增强代码 LLMs 的安全性能。研究结果发现，现有模型在代码生成中经常忽视安全问题，提出了有效的方法来解决安全漏洞，并提高代码的整体稳健性。此外，研究还发现现有模型在修复漏洞代码方面存在问题，并且某些漏洞类型对模型构成挑战。基于这些发现，我们相信本研究将对软件工程社区产生积极影响，激发改进 LLMs 训练和使用方法的开发，从而实现更安全、更可信的模型部署。

Oct, 2023

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

用于网络安全的大型语言模型：系统文献综述

大型语言模型在网络安全领域的应用综述，包括漏洞检测、恶意软件分析、数据隐私等问题，指出了数据集大小与多样性的重要性以及未来研究方向。

May, 2024

大型语言模型在网络安全中的调查

大型语言模型在网络安全领域的应用、使用方式、局限性以及如何克服这些局限性和期望中的成果进行了调查。

Feb, 2024