ICMLNov, 2020

CRPO:一种具有收敛保证的安全强化学习新方法

TL;DR提出了利用 CRPO 算法框架进行 SRL 问题求解的原始方法,使用自然策略梯度方法,并以全局优化策略为目标,最终达到 1 / 根号 T 的收敛速率和错误边界。