网络统计：用于评估大型语言模型在网络安全领域的基准数据集

Feb, 2024

网络统计：用于评估大型语言模型在网络安全领域的基准数据集

CyberMetric: A Benchmark Dataset for Evaluating Large Language Models Knowledge in Cybersecurity

Norbert Tihanyi, Mohamed Amine Ferrag, Ridhi Jain, Merouane Debbah

TL;DR介绍了 CyberMetric，这是一个包含 10,000 个问题的基准数据集，通过合作过程结合人类专家知识和大型语言模型（LLMs）来创建问题，主要目标是在网络安全领域中促进人类和不同 LLMs 之间的公平比较，结果显示 LLMs 在几乎所有网络安全方面表现优于人类。

Abstract

large language models (LLMs) excel across various domains, from computer vision to medical diagnostics. However, understanding the diverse landscape of cybersecurity, encompassing cryptography, reverse engineerin

large language models cybersecurity benchmark dataset questions comparison

发现论文，激发创造

安全性：为网络安全咨询评估生成式大型语言模型

大型语言模型（LLMs）在网络安全应用中显示出潜力，但也因幻觉和缺乏真实性等问题导致信心下降。现有的基准测试提供了一般评估，但不能充分解决 LLMs 在网络安全特定任务中的实际应用方面的问题。为了填补这个空白，我们引入了 SECURE（安全提取、理解与推理评估）基准测试，该基准测试旨在评估 LLMs 在现实网络安全场景中的性能。SECURE 包括六个数据集，重点关注工业控制系统领域，以评估基于行业标准来源的知识提取、理解和推理。我们的研究评估了七种最先进的模型在这些任务上的表现，为改进 LLMs 作为网络咨询工具的可靠性提供了见解和建议。

May, 2024

CyberSecEval 2: 大型语言模型的广泛网络安全评估套件

大型语言模型引入新的安全风险，但缺乏综合评估套件来衡量和减少这些风险。我们提出了 BenchmarkName，这是一个用于量化 LLM 安全风险和能力的新型基准。我们介绍了两个新领域的测试：提示注入和代码解释器滥用。我们评估了多种最先进的 LLMs，包括 GPT-4、Mistral、Meta Llama 3 70B-Instruct 和 Code Llama。我们的结果表明，消除攻击风险的条件仍然是一个尚未解决的问题；例如，所有测试模型在成功的提示注入测试中显示出 26% 到 41% 之间的结果。我们进一步引入了安全效用权衡：将 LLM 条件化以拒绝不安全的提示可能导致 LLM 错误地拒绝回答良性提示，从而降低效用。我们建议使用 False Refusal Rate（FRR）来量化这种权衡。作为示例，我们引入了一个新的测试集来量化网络攻击有用性风险的 FRR。我们发现，许多 LLMs 能够与 “边界线” 良性请求成功地相符，同时拒绝大部分不安全的请求。最后，我们量化了 LLMs 在自动化核心网络安全任务（例如利用软件漏洞）方面的效用。这很重要，因为 LLMs 的进攻能力引起了极大的兴趣；我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型，但 LLMs 在利用生成方面还需要进一步的工作。我们的代码是开源的，可以用于评估其他 LLMs。

Apr, 2024

用于网络安全的大型语言模型：系统文献综述

大型语言模型在网络安全领域的应用综述，包括漏洞检测、恶意软件分析、数据隐私等问题，指出了数据集大小与多样性的重要性以及未来研究方向。

May, 2024

网络安全中的大型语言模型：最新技术

通过评估对进攻和防御应用的研究，本研究旨在提供对 LLM 驱动的网络安全领域中潜在风险和机遇的整体理解。

Jan, 2024

紫色羊驼网络安全评估：面向语言模型的安全编码基准

CyberSecEval 是一个全面的基准测试，用于增强作为编程助手的大型语言模型（LLMs）的网络安全。通过对七个模型进行案例研究，CyberSecEval 成功地确定了关键的网络安全风险，并提供了改进这些模型的实用见解，强调了在开发复杂 LLMs 时整合安全考虑的重要性。

Dec, 2023

大型语言模型在网络安全中的调查

大型语言模型在网络安全领域的应用、使用方式、局限性以及如何克服这些局限性和期望中的成果进行了调查。

Feb, 2024

生成人工智能与大型语言模型在网络安全中的应用洞见

通过生成式人工智能和大型语言模型（LLM），该论文对未来的网络安全进行了全面回顾，并探讨了 LLM 在硬件设计安全、入侵检测、软件工程、设计验证、网络威胁情报、恶意软件检测和钓鱼检测等各个领域的应用。论文提供了将 LLM 集成到未来网络安全框架中的基础理解和战略方向，强调创新和强大的模型部署以保护免受不断演变的网络威胁。

May, 2024

NYU CTF 数据集：用于评估攻击性安全领域语言模型的可扩展开源基准数据集

我们开发了一种创新方法来评估大型语言模型（LLMs）在解决网络安全中的夺旗挑战方面的能力，通过创建一个专门针对这些应用设计的可扩展的开源基准数据库。利用 LLMs 的高级函数调用能力，我们构建了一个完全自动化的系统，具有改进的工作流程和对外部工具调用的支持。通过提供专门的数据集，我们的项目为开发、测试和改进基于 LLMs 的漏洞检测和解决方法提供了理想的平台。通过在这些挑战上评估 LLMs 并与人类表现进行比较，我们可以洞察 AI 驱动的网络安全解决方案在现实世界威胁管理方面的潜力。

Jun, 2024

TeleQnA：评估大型语言模型的基准数据集电信知识

我们介绍了 TeleQnA，这是首个用于评估大型语言模型（LLMs）在电信领域知识的基准数据集。该数据集包含 10,000 个问题和答案，来源于多个标准和研究文章。该论文阐述了创建该数据集的自动问题生成框架，并说明了在不同阶段集成人工输入以保证问题质量。通过使用提供的数据集，对 GPT-3.5 和 GPT-4 等 LLMs 的能力进行了评估。结果表明，这些模型在处理复杂的标准相关问题方面存在困难，但在解答一般的电信相关问题时表现出了出色的能力。此外，我们的结果展示了将电信知识背景纳入模型显著提高了其性能，从而揭示了电信基础模型的需求。最后，将数据集分享给了活跃在电信领域的专业人士，并将他们的表现与 LLMs 进行了基准测试。研究结果表明，在电信知识方面，LLMs 可以与活跃专业人士的表现相媲美，这归功于它们处理大量信息的能力，突显了 LLMs 在该领域的潜力。该数据集已在 GitHub 上公开获取。

Oct, 2023

CTIBench：用于评估网络威胁情报中 LLMs 的基准测试

Cyber Threat Intelligence Large Language Models benchmark (CTIBench) evaluates the performance of state-of-the-art models in CTI applications, providing insights into their strengths and weaknesses in the cyber-threat landscape.

Jun, 2024