Jan, 2019

关于模仿学习的全局收敛性:线性二次调节器的案例

TL;DR该研究探讨了生成对抗模仿学习在线性二次调节器方面的全局收敛性,提出了交替梯度算法解决非凸 - 凹几何形态可能带来的问题,该算法收敛速度为 Q 线性速率并得到全局最优策略和奖励函数,为理解和控制从强化学习和生成对抗学习中产生的非凸 - 凹交替极小最大优化方面的不稳定性迈出了一步。