Apr, 2025
绕过大型语言模型护栏中的提示注入和越狱检测
Bypassing Prompt Injection and Jailbreak Detection in LLM Guardrails
TL;DR本文研究了大型语言模型护栏系统在防范提示注入和越狱攻击方面的不足,提出了两种传统字符注入和算法对抗性机器学习(AML)逃避技术的方法。研究发现,针对六个显著保护系统的测试显示,这两种方法能够达到最高100%的逃避检测成功率,揭示了现有模型保护机制的脆弱性,并强调了开发更强大护栏系统的必要性。