Jul, 2019

关于 Actor-Critic 的全局收敛性:线性二次调节器具有遍历成本

TL;DR研究了基于 actor-critic 算法的在线交替更新算法在双层优化问题中的应用,证明了该算法在线性二次型调节器中的全局最优对 actor 和 critic 的线性收敛率