Oct, 2022

使用Teacher Forcing恢复文本生成的奖励函数

TL;DR我们提出了一种基于 teacher forcing 的无特定任务强化学习奖励函数生成方法,其稳定性高并优于自训练和奖励回归方法,可用于缓解曝光偏差或利用非平行数据集的文本生成任务。