Nov, 2018

MLE 和 RL 在序列预测中的联系

TL;DR采用统一的熵正则化策略优化框架,将不同算法统一为特殊实例,从而提供了统一的探索与学习效率的视角。此外,本文还提出了一种动态插值的算法,用于调度序列模型的学习,实验证明其优于传统算法。