ICLRSep, 2020

通过学习演示进行文本生成

TL;DR本论文提出了一种基于离线强化学习的 “GOLD” 算法,用于解决现有文本生成方式的问题,它通过加权学习参考样本,避免了在线强化学习方法所面临的优化问题,并在题目总结、问题生成和机器翻译等方面取得了比 MLE 和策略梯度更好的自动和人工评价结果。