Sep, 2017

使用 Softmax 策略梯度的冷启动强化学习

TL;DR本文提出了一种基于 softmax 价值函数的强化学习方法,它不需要 warm-start 和样本方差的降低,结合了 policy-gradient 方法和最大似然方法的优点,用于训练结构化输出预测问题的序列生成模型,经实验证明,在文本自动摘要和图像字幕生成任务上性能良好。