Nov, 2024
多样性有助于突破大型语言模型的限制
Diversity Helps Jailbreak Large Language Models
TL;DR本研究揭示了一种强大的越狱技术,利用大型语言模型(LLM)在先前上下文中偏离的能力,绕过安全限制并生成有害输出。通过简单地指示LLM偏离和模糊之前的攻击,我们的方法在突破九个领先的聊天机器人(包括GPT-4、Gemini和Llama)方面,成功率高达62%,而查询数量仅为13%。这一发现暴露了现有LLM安全训练中的关键缺陷,表明现有方法可能仅仅是在掩盖漏洞,而非消除它们,因此需要彻底改革测试方法以确保LLM的安全性。