Jul, 2024

TAPI: 针对代码LLMs的目标特定和对抗性提示注入

TL;DR此研究提出了一种新的攻击范式,即面向目标和对抗性提示注入(TAPI),针对代码导向的大型语言模型(Code LLMs)。TAPI在外部源代码中生成包含恶意指令信息的不可读注释,并将其隐藏为触发器。当用户利用Code LLMs完成包含触发器的代码时,模型将在特定位置生成攻击者指定的恶意代码片段。实验结果表明,我们的方法具有很高的威胁性(攻击成功率高达89.3%)和隐秘性(设计触发器时平均保存53.1%的令牌)。尤其是,我们成功攻击了一些著名的已部署代码完成集成应用程序,包括CodeGeex和Github Copilot。这进一步证实了我们攻击的现实威胁。