Aug, 2023

GPT-4 太聪明了,不安全:通过密码与 LLMs 进行隐秘聊天

TL;DR通过 CipherChat 框架评估 ChatGPT 和 GPT-4,发现某些密码能够在多个安全领域中以近乎 100% 的成功率绕过 GPT-4 的安全对齐,证明了开发非自然语言安全对齐的必要性,同时提出了一种新颖的 SelfCipher 方法,在几乎所有情况下表现优于现有的人工密码。