badgpt | BriefGPT - AI 论文速递

关键词badgpt

搜索结果 - 1

BadGPT: 通过后门攻击探究 ChatGPT 的安全漏洞
本研究提出了 BadGPT，这是第一种针对语言模型强化学习 Fine-Tuning 的后门攻击，将后门注入奖励模型，导致生成文本被攻击者操纵，初步实验在 IMDB 上得到了验证。
PDFa year ago