May, 2022
Quark: 强化逆遗忘控制的文本生成
Quark: Controllable Text Generation with Reinforced Unlearning
Ximing Lu, Sean Welleck, Jack Hessel, Liwei Jiang, Lianhui Qin...
TL;DR在大规模语言模型中,使用 Quark 算法可以优化奖励函数,通过对奖励信号的训练,学习什么是不需要的属性,从而减少生成文本中的毒性、负面情感和重复性,并且在这些方面优于其他基线和增强学习方法。