Jun, 2024

2024 SaTML LLM Capture-the-Flag 比赛的数据集与经验教训

TL;DR大型语言模型系统在安全方面面临重要风险,如恶意设计的消息试图覆盖系统的原始指令或泄露私人数据。为了研究这个问题,我们在 IEEE SaTML 2024 组织了一场夺旗赛,其中旗标是 LLM 系统提示中的机密字符串。该比赛分为两个阶段,第一阶段是团队开发防御措施以防止模型泄露机密信息,第二阶段是团队挑战提取其他团队提出的防御措施中隐藏的机密信息。本报告总结了比赛的主要见解,发现所有防御措施至少被绕过一次,凸显了设计成功防御措施的难度以及进一步研究保护 LLM 系统的必要性。为了促进未来在这个方向的研究,我们编制了一个包含超过 137k 个多轮次攻击对话的数据集,并开放源代码平台。