May, 2025

对机器思维的红队测试:对大型语言模型的提示注入和越狱漏洞的系统评估

TL;DR本研究解决了大型语言模型(LLMs)在提示注入和越狱攻击下的脆弱性问题,提供了系统化的评估和分类。通过分析超过1400个对抗性提示,揭示了它们对多个先进LLM的影响,并提出分层缓解策略,以增强LLM的安全性。