Nov, 2022

有条件的文本生成中的奖励游戏

TL;DR通过使用强化学习和人工注释的奖励函数训练条件文本生成模型,我们发现在学习奖励函数过程中会因为引入的噪声或自然产生的假相关性以及协变量偏移等原因导致错误行为被高估,我们探讨了如何避免自然语言生成领域中的奖励欺骗问题和未来的研究方向。