Mar, 2025
探测大语言模型中的潜在子空间以增强人工智能安全性:识别和操控对抗状态
Probing Latent Subspaces in LLM for AI Security: Identifying and
Manipulating Adversarial States
TL;DR本研究解决了大语言模型(LLM)在对抗性操作下的脆弱性问题,特别是通过提示注入攻击绕过安全机制生成有害内容的风险。我们提出了一种新颖的方法,通过提取隐藏激活状态,识别安全与被监狱化状态之间的潜在子空间,并通过扰动向量诱导模型向监狱化状态转变,从而实现预防性防御的可能性。