Jul, 2024

模型划图:评估对基于语言模型的编程助手的对抗攻击的影响

TL;DRLLM-based编程助手可以加快编程速度,但可能引入更多安全漏洞。我们介绍了恶意编程提示(MaPP)攻击,通过向编程任务的提示中添加少量文本(小于500字节),我们展示了我们的提示策略如何使LLM在编写其他正确代码的同时添加漏洞。我们在七个常见LLM上评估了三个提示,并使用HumanEval基准测试发现我们的提示在广泛范围内有效,不需要针对不同LLM进行定制化。此外,最适合HumanEval的LLM也最适合遵循我们的恶意指令,这表明简单扩展语言模型无法防止MaPP攻击。通过16种情景中八个CWE的数据集,我们发现MaPP攻击在各种模型上实施特定和有针对性的漏洞也是有效的。我们的工作强调了保护LLM提示免受操纵的需求,并且需要对借助LLMs生成的代码进行严格审计。