Oct, 2019

安全强化学习的收敛策略优化

TL;DR本研究探讨了安全强化学习问题与非线性函数逼近的关系,将策略优化作为同时考虑目标与限制的非凸问题,通过构建一系列局部替换非凸函数为凸二次函数的约束优化问题,证明了对这些问题求解,其解会收敛于原问题的稳定点;进一步将该算法应用于优化控制和多智能体安全强化学习问题,扩展了理论研究的范围。