Aug, 2023
GPT-4 太聪明了,不安全:通过密码与 LLMs 进行隐秘聊天
GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher
Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He...
TL;DR通过 CipherChat 框架评估 ChatGPT 和 GPT-4,发现某些密码能够在多个安全领域中以近乎 100% 的成功率绕过 GPT-4 的安全对齐,证明了开发非自然语言安全对齐的必要性,同时提出了一种新颖的 SelfCipher 方法,在几乎所有情况下表现优于现有的人工密码。