Jan, 2019

正则化马尔科夫决策过程理论

TL;DR本文提出了一种正则化的马尔可夫决策过程的一般理论,结合正则化贝尔曼算子和Legendre-Fenchel变换,可以分析诸如Trust Region Policy Optimization、Soft Q-learning、Stochastic Actor Critic或Dynamic Policy Programming等经典算法的错误传播分析,并与Mirror Descent进行了连接。