ICMLJan, 2019

正则化马尔科夫决策过程理论

TL;DR本文提出了一种正则化的马尔可夫决策过程的一般理论,结合正则化贝尔曼算子和 Legendre-Fenchel 变换,可以分析诸如 Trust Region Policy Optimization、Soft Q-learning、Stochastic Actor Critic 或 Dynamic Policy Programming 等经典算法的错误传播分析,并与 Mirror Descent 进行了连接。