Aug, 2023

ESRL: 高效基于采样的序列生成的强化学习

TL;DR通过引入两阶段取样和动态取样方法,我们提出了一种提高强化学习中序列生成模型取样效率的方法。我们在传统的序列生成任务上进行了实验,包括机器翻译和摘要生成。实验结果表明,这种高效取样的强化学习方法 ESRL,在训练效率和内存消耗方面都优于基线方法,并且持续获得比 REINFORCE、最小风险训练和近端策略优化方法更好的性能。