May, 2017

熵正则化马尔科夫决策过程的统一视角

TL;DR提出一种针对 Markov 决策过程的熵正则化平均回报强化学习的一般性框架,通过使用条件熵来对联合状态 - 动作分布进行正则化,将一些先进的熵 - 正则化强化学习算法形式化为 Mirror Descent 或 Dual Averaging 的近似变体,并在简单的强化学习实验中展示了各种正则化技术对学习性能的影响。