BriefGPT.xyz
Oct, 2019
安全强化学习的收敛策略优化
Convergent Policy Optimization for Safe Reinforcement Learning
HTML
PDF
Ming Yu, Zhuoran Yang, Mladen Kolar, Zhaoran Wang
TL;DR
本研究探讨了安全强化学习问题与非线性函数逼近的关系,将策略优化作为同时考虑目标与限制的非凸问题,通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题,证明了对这些问题求解,其解会收敛于原问题的稳定点;进一步将该算法应用于优化控制和多智能体安全强化学习问题,扩展了理论研究的范围。
Abstract
We study the
safe reinforcement learning
problem with
nonlinear function approximation
, where
policy optimization
is formulated as a
→