Mar, 2020
基于原始对偶策略优化的可证明高效安全探索
Provably Efficient Safe Exploration via Primal-Dual Policy Optimization
Dongsheng Ding, Xiaohan Wei, Zhuoran Yang, Zhaoran Wang, Mihailo R. Jovanović
TL;DR该论文使用 CMDP 公式研究了安全强化学习(SRL)问题,在预期总回报的安全限制下最大化效用函数的预期总价值。提出了一种可证明计算效率和统计效率的在线策略优化算法 - OPTIMISTIC PRIMAL-DUAL PROXIMAL POLICY OPTIMIZATION(OPDOP)算法,利用最小二乘策略估计和安全探索额外奖励项来估计值函数。