Mar, 2020

基于原始对偶策略优化的可证明高效安全探索

TL;DR该论文使用 CMDP 公式研究了安全强化学习(SRL)问题,在预期总回报的安全限制下最大化效用函数的预期总价值。提出了一种可证明计算效率和统计效率的在线策略优化算法 - OPTIMISTIC PRIMAL-DUAL PROXIMAL POLICY OPTIMIZATION(OPDOP)算法,利用最小二乘策略估计和安全探索额外奖励项来估计值函数。