May, 2024

WordGame:通过同时查询和响应模糊隐藏来实现高效和有效的 LLM 越狱

TL;DR通过同时在查询和响应中进行模糊处理,我们提出了 WordGame 攻击,用于越过当前领先的专有和开源大型语言模型,包括最新的 Claude-3、GPT-4 和 Llama-3 模型的防护措施,从而破坏其对安全对齐的保护。