BriefGPT.xyz
Ask
alpha
关键词
badgpt
搜索结果 - 1
BadGPT: 通过后门攻击探究 ChatGPT 的安全漏洞
本研究提出了 BadGPT,这是第一种针对语言模型强化学习 Fine-Tuning 的后门攻击,将后门注入奖励模型,导致生成文本被攻击者操纵,初步实验在 IMDB 上得到了验证。
PDF
a year ago
Prev
Next