Feb, 2023

BadGPT: 通过后门攻击探究 ChatGPT 的安全漏洞

TL;DR本研究提出了 BadGPT,这是第一种针对语言模型强化学习 Fine-Tuning 的后门攻击,将后门注入奖励模型,导致生成文本被攻击者操纵,初步实验在 IMDB 上得到了验证。