May, 2022

Quark: 强化逆遗忘控制的文本生成

TL;DR在大规模语言模型中,使用 Quark 算法可以优化奖励函数,通过对奖励信号的训练,学习什么是不需要的属性,从而减少生成文本中的毒性、负面情感和重复性,并且在这些方面优于其他基线和增强学习方法。