ACLMay, 2018

基于语篇感知的神经奖励来实现连贯文本生成

TL;DR本研究使用基于语篇的奖励机制结合强化学习来引导模型生成连贯的长文本,利用神经网络奖励模型来促进跨句子排序,实验结果表明,使用此奖励机制的生成模型比传统的交叉熵或使用常见奖励得分的强化学习训练的模型产生的文本更连贯,更少的重复性。