Aug, 2023
ESRL: 高效基于采样的序列生成的强化学习
ESRL: Efficient Sampling-based Reinforcement Learning for Sequence Generation
Chenglong Wang, Hang Zhou, Yimin Hu, Yifu Huo, Bei Li...
TL;DR通过引入两阶段取样和动态取样方法,我们提出了一种提高强化学习中序列生成模型取样效率的方法。我们在传统的序列生成任务上进行了实验,包括机器翻译和摘要生成。实验结果表明,这种高效取样的强化学习方法 ESRL,在训练效率和内存消耗方面都优于基线方法,并且持续获得比 REINFORCE、最小风险训练和近端策略优化方法更好的性能。