Apr, 2020

带稳定性保证的演员 - 评论家强化学习控制

TL;DR使用经典控制理论中的 Lyapunov 方法,为控制系统提供稳定性保证的 actor-critic RL 框架,确保在一定程度的不确定性干扰下,学习到的策略使得系统能够恢复到平衡或航点。