Nov, 2022

自毁模型:增加基础模型有害双重用途的成本

TL;DR该研究提出了一种名为「任务屏蔽」的新的训练范式,使用元学习和对抗学习的技术训练出一种自毁机制的基础模型来预防对有害任务的适应,降低其潜在风险。