NYU CTF 数据集：用于评估攻击性安全领域语言模型的可扩展开源基准数据集

Jun, 2024

NYU CTF 数据集：用于评估攻击性安全领域语言模型的可扩展开源基准数据集

NYU CTF Dataset: A Scalable Open-Source Benchmark Dataset for Evaluating LLMs in Offensive Security

Minghao Shao, Sofija Jancheska, Meet Udeshi, Brendan Dolan-Gavitt, Haoran Xi...

TL;DR我们开发了一种创新方法来评估大型语言模型（LLMs）在解决网络安全中的夺旗挑战方面的能力，通过创建一个专门针对这些应用设计的可扩展的开源基准数据库。利用 LLMs 的高级函数调用能力，我们构建了一个完全自动化的系统，具有改进的工作流程和对外部工具调用的支持。通过提供专门的数据集，我们的项目为开发、测试和改进基于 LLMs 的漏洞检测和解决方法提供了理想的平台。通过在这些挑战上评估 LLMs 并与人类表现进行比较，我们可以洞察 AI 驱动的网络安全解决方案在现实世界威胁管理方面的潜力。

Abstract

large language models (LLMs) are being deployed across various domains today. However, their capacity to solve Capture the Flag (CTF) challenges in cybersecurity has not been thoroughly evaluated. To address this

large language models capture the flag challenges cybersecurity benchmark database automated framework

发现论文，激发创造

利用大型语言模型进行网络安全夺旗挑战和认证问题

评估网络安全 Capture-The-Flag（CTF）练习中使用大型语言模型（LLMs）的能力，并探讨它对课堂教学、CTF 挑战的影响以及相关的学术诚信问题。

Aug, 2023

VulDetectBench：利用大型语言模型评估漏洞检测的深度能力

通过创建一个新的基准测试集 VulDetectBench，我们评估了各类大型语言模型在漏洞检测任务中的性能，结果显示现有模型在识别和分类与漏洞相关的任务上可以达到 80% 以上的准确率，但在更复杂的漏洞分析任务上只能达到不到 30% 的准确率，难以为专业漏洞挖掘提供有价值的辅助信息。这个基准测试集为未来代码安全领域的研究和改进提供了基础。

Jun, 2024

2024 SaTML LLM Capture-the-Flag 比赛的数据集与经验教训

大型语言模型系统在安全方面面临重要风险，如恶意设计的消息试图覆盖系统的原始指令或泄露私人数据。为了研究这个问题，我们在 IEEE SaTML 2024 组织了一场夺旗赛，其中旗标是 LLM 系统提示中的机密字符串。该比赛分为两个阶段，第一阶段是团队开发防御措施以防止模型泄露机密信息，第二阶段是团队挑战提取其他团队提出的防御措施中隐藏的机密信息。本报告总结了比赛的主要见解，发现所有防御措施至少被绕过一次，凸显了设计成功防御措施的难度以及进一步研究保护 LLM 系统的必要性。为了促进未来在这个方向的研究，我们编制了一个包含超过 137k 个多轮次攻击对话的数据集，并开放源代码平台。

Jun, 2024

网络统计：用于评估大型语言模型在网络安全领域的基准数据集

介绍了 CyberMetric，这是一个包含 10,000 个问题的基准数据集，通过合作过程结合人类专家知识和大型语言模型（LLMs）来创建问题，主要目标是在网络安全领域中促进人类和不同 LLMs 之间的公平比较，结果显示 LLMs 在几乎所有网络安全方面表现优于人类。

Feb, 2024

CyberSecEval 2: 大型语言模型的广泛网络安全评估套件

大型语言模型引入新的安全风险，但缺乏综合评估套件来衡量和减少这些风险。我们提出了 BenchmarkName，这是一个用于量化 LLM 安全风险和能力的新型基准。我们介绍了两个新领域的测试：提示注入和代码解释器滥用。我们评估了多种最先进的 LLMs，包括 GPT-4、Mistral、Meta Llama 3 70B-Instruct 和 Code Llama。我们的结果表明，消除攻击风险的条件仍然是一个尚未解决的问题；例如，所有测试模型在成功的提示注入测试中显示出 26% 到 41% 之间的结果。我们进一步引入了安全效用权衡：将 LLM 条件化以拒绝不安全的提示可能导致 LLM 错误地拒绝回答良性提示，从而降低效用。我们建议使用 False Refusal Rate（FRR）来量化这种权衡。作为示例，我们引入了一个新的测试集来量化网络攻击有用性风险的 FRR。我们发现，许多 LLMs 能够与 “边界线” 良性请求成功地相符，同时拒绝大部分不安全的请求。最后，我们量化了 LLMs 在自动化核心网络安全任务（例如利用软件漏洞）方面的效用。这很重要，因为 LLMs 的进攻能力引起了极大的兴趣；我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型，但 LLMs 在利用生成方面还需要进一步的工作。我们的代码是开源的，可以用于评估其他 LLMs。

Apr, 2024

使用大型语言模型进行漏洞检测的现状

通过实验发现，一些 LLM 在漏洞检测方面超越传统深度学习方法，揭示了 LLM 在加强软件安全方面的潜力。

Nov, 2023

CTIBench：用于评估网络威胁情报中 LLMs 的基准测试

Cyber Threat Intelligence Large Language Models benchmark (CTIBench) evaluates the performance of state-of-the-art models in CTI applications, providing insights into their strengths and weaknesses in the cyber-threat landscape.

Jun, 2024

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024

用于网络安全的大型语言模型：系统文献综述

大型语言模型在网络安全领域的应用综述，包括漏洞检测、恶意软件分析、数据隐私等问题，指出了数据集大小与多样性的重要性以及未来研究方向。

May, 2024