Aug, 2023

LLM 自卫:通过自我检验,LLM 知道自己被欺骗

TL;DR通过使用语言模型验证内容,我们提出了一种简单的方法来防御对抗性攻击,从而使大型语言模型过滤其自己的回应,即使模型未经人类价值重新调整,也可以避免为用户呈现有害内容。