安全强化学习的收敛策略优化

Oct, 2019

Convergent Policy Optimization for Safe Reinforcement Learning

Ming Yu, Zhuoran Yang, Mladen Kolar, Zhaoran Wang

TL;DR本研究探讨了安全强化学习问题与非线性函数逼近的关系，将策略优化作为同时考虑目标与限制的非凸问题，通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题，证明了对这些问题求解，其解会收敛于原问题的稳定点；进一步将该算法应用于优化控制和多智能体安全强化学习问题，扩展了理论研究的范围。

Abstract

We study the safe reinforcement learning problem with nonlinear function approximation, where policy optimization is formulated as a