Apr, 2025

高效令牌注入攻击:通过自适应令牌压缩促使大型语言模型停止推理

TL;DR本研究针对大型语言模型(LLM)存在的"思考停止"漏洞进行了深入探讨,提出了一种新颖的攻击方法——"推理中断攻击",利用自适应令牌压缩简化了攻击的提示词结构。实验表明,该方法能有效减少提示词长度,同时保持攻击效果,对提升LLM的安全性具有重要的启示意义。