BriefGPT.xyz
Ask
alpha
关键词
filtering responses
搜索结果 - 1
LLM 自卫:通过自我检验,LLM 知道自己被欺骗
通过使用语言模型验证内容,我们提出了一种简单的方法来防御对抗性攻击,从而使大型语言模型过滤其自己的回应,即使模型未经人类价值重新调整,也可以避免为用户呈现有害内容。
PDF
a year ago
Prev
Next