2024 SaTML LLM Capture-the-Flag 比赛的数据集与经验教训

Jun, 2024

2024 SaTML LLM Capture-the-Flag 比赛的数据集与经验教训

Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition

Edoardo Debenedetti, Javier Rando, Daniel Paleka, Silaghi Fineas Florin, Dragos Albastroiu...

TL;DR大型语言模型系统在安全方面面临重要风险，如恶意设计的消息试图覆盖系统的原始指令或泄露私人数据。为了研究这个问题，我们在 IEEE SaTML 2024 组织了一场夺旗赛，其中旗标是 LLM 系统提示中的机密字符串。该比赛分为两个阶段，第一阶段是团队开发防御措施以防止模型泄露机密信息，第二阶段是团队挑战提取其他团队提出的防御措施中隐藏的机密信息。本报告总结了比赛的主要见解，发现所有防御措施至少被绕过一次，凸显了设计成功防御措施的难度以及进一步研究保护 LLM 系统的必要性。为了促进未来在这个方向的研究，我们编制了一个包含超过 137k 个多轮次攻击对话的数据集，并开放源代码平台。

Abstract

large language model systems face important security risks from maliciously crafted messages that aim to overwrite the system's original instructions or leak private data. To study this problem, we organized a ca

large language model systems security risks capture-the-flag competition defenses llm systems

发现论文，激发创造

征服旗帜：利用大型语言模型揭示数据洞察

利用大型语言模型自动发现数据中的洞察力并评估其能力的研究。

Dec, 2023

利用大型语言模型进行网络安全夺旗挑战和认证问题

评估网络安全 Capture-The-Flag（CTF）练习中使用大型语言模型（LLMs）的能力，并探讨它对课堂教学、CTF 挑战的影响以及相关的学术诚信问题。

Aug, 2023

NYU CTF 数据集：用于评估攻击性安全领域语言模型的可扩展开源基准数据集

我们开发了一种创新方法来评估大型语言模型（LLMs）在解决网络安全中的夺旗挑战方面的能力，通过创建一个专门针对这些应用设计的可扩展的开源基准数据库。利用 LLMs 的高级函数调用能力，我们构建了一个完全自动化的系统，具有改进的工作流程和对外部工具调用的支持。通过提供专门的数据集，我们的项目为开发、测试和改进基于 LLMs 的漏洞检测和解决方法提供了理想的平台。通过在这些挑战上评估 LLMs 并与人类表现进行比较，我们可以洞察 AI 驱动的网络安全解决方案在现实世界威胁管理方面的潜力。

Jun, 2024

在 LLM 时代的社交工程攻击防御

本研究探讨了大型语言模型（LLMs）作为聊天式社交工程（CSE）攻击的助手和防御者所面临的挑战，开发了一个模拟学术和招聘场景的数据集 SEConvo，揭示了 LLMs 在这些情境中的利用和检测能力，设计了 ConvoSentinel 以提高检测效果，强化 CSE 攻击的辨识能力，凸显了在网络安全领域中利用 LLMs 的需求。

Jun, 2024

跨任务防御：面向内容安全的指令调优语言模型

我们的研究旨在针对恶意文件开发强大的大型语言模型（LLMs）防御机制，并通过指导调整来提高它们处理危险内容的能力，同时维持其效用和安全之间的平衡。在我们的实证结果中，LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外，加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡，其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。

May, 2024

大型语言模型的安全与隐私挑战概述

该文综述了大型语言模型在安全与隐私方面面临的挑战，分析了其脆弱性，并审查了潜在的攻击方式与防御机制，还指出了该领域中的研究空白与未来发展方向。

Jan, 2024

通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞

通过全球 prompt 黑客竞赛，我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击，提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集，并提出了对敌对 prompt 类型的综合分类本体论。

Oct, 2023

用于网络安全的大型语言模型：系统文献综述

大型语言模型在网络安全领域的应用综述，包括漏洞检测、恶意软件分析、数据隐私等问题，指出了数据集大小与多样性的重要性以及未来研究方向。

May, 2024

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

网络安全中的大型语言模型：最新技术

通过评估对进攻和防御应用的研究，本研究旨在提供对 LLM 驱动的网络安全领域中潜在风险和机遇的整体理解。

Jan, 2024