Sep, 2023

模型吸附攻击:针对 LLMs 的提取攻击

TL;DRModel Leeching 是一种新颖的提取攻击,针对大型语言模型(LLMs),能够从目标 LLM 中提取特定任务知识到一个减少参数的模型。我们通过从 ChatGPT-3.5-Turbo 提取任务能力来证明我们攻击的有效性,精确匹配相似度达到 73%,并且 SQuAD 精确匹配和 F1 准确性得分分别为 75% 和 87%,仅需 $50 的 API 成本。我们进一步证明了通过 Model Leeching 从提取模型到对目标 LLM 进行机器学习攻击的可行性,当应用于 ChatGPT-3.5-Turbo 时攻击成功率增加了 11%。