IJCAIApr, 2018

逆强化学习实现多样文本生成

TL;DR本论文针对文本生成中奖励稀疏和模式崩溃等问题,提出采用反强化学习方法实现文本生成,即通过学习在训练数据上的奖励函数和最大化预期总奖励的最优策略函数,将奖励和策略函数进行优化,实验结果表明该方法较之前的方法可以生成更高质量的文本。