Oct, 2023

强化学习,游戏与控制中的政策梯度方法的全局收敛性

TL;DR通过最大化值函数来寻找感兴趣的策略的政策梯度方法在顺序决策、强化学习、游戏和控制中变得越来越受欢迎,然而,由于值函数的非凸性,保证政策梯度方法的全局最优性非常困难。本文重点介绍了近期在理解和开发具有全局收敛保证的政策梯度方法方面的进展,特别强调了其有关突出问题参数的有限时间收敛速度。