Jan, 2019
正则化马尔科夫决策过程理论
A Theory of Regularized Markov Decision Processes
TL;DR本文提出了一种正则化的马尔可夫决策过程的一般理论,结合正则化贝尔曼算子和Legendre-Fenchel变换,可以分析诸如Trust Region Policy Optimization、Soft Q-learning、Stochastic Actor Critic或Dynamic Policy Programming等经典算法的错误传播分析,并与Mirror Descent进行了连接。