Feb, 2025

越狱时的对抗性推理

TL;DR本研究解决了大语言模型(LLMs)在应用中的失败案例,特别是如何从对齐的LLMs中引发有害反应。通过自动越狱的新型对抗性推理方法,我们在测试时间计算中取得了许多对齐LLMs的最新攻击成功率(ASR),为理解LLM的脆弱性提供了新的视角,并为构建更稳健和可靠的AI系统奠定了基础。