AAAISep, 2016

SeqGAN: 带策略梯度的序列生成对抗网络

TL;DR本文提出了一种名为 SeqGAN 的序列生成框架,该框架将数据生成器建模为强化学习中的随机策略,通过直接执行梯度策略更新来绕过生成器差异化问题,并利用蒙特卡罗搜索将 RL 奖励信号从 GAN 鉴别器传递回中间状态动作步骤。在合成数据和现实世界任务上的广泛实验表明,SeqGAN 比强基线模型有了显著的改进。