May, 2025

以火抗火:通过奖励中和防御恶意强化学习微调

TL;DR本研究解决了强化学习微调对大型语言模型安全性造成的漏洞,提出了一种名为奖励中和的新防御框架。该框架通过建立简洁的拒绝模式,有效阻止恶意奖励信号的影响,实验结果表明在受到攻击后模型的有害得分保持在较低水平,为开源模型的安全提供了全新的防御思路。