May, 2024

特殊字符攻击:朝向大型语言模型的可扩展训练数据提取

TL;DR大语言模型(LLM)在各种任务中取得了显著的表现。本文进一步展示了特定特殊字符或其与英文字母的组合作为更强的记忆触发器,导致更严重的数据泄漏。通过提出一个简单而有效的特殊字符攻击(SCA),我们验证了该攻击对最先进的 LLM 的高效性。该攻击能泄露多样化的训练数据,例如代码语料库、网页和个人可识别信息,并且有时会产生不间断的输出作为副产品。进一步地,我们展示了通过检查泄漏数据可以揭示训练数据语料库的组成,这是预训练高性能 LLM 的一项关键信息。我们的工作有助于理解 LLM 对特殊字符的敏感性,并确定改进的潜在领域。