Nov, 2020

CRPO:一种具有收敛保证的安全强化学习新方法

TL;DR提出了利用CRPO算法框架进行SRL问题求解的原始方法,使用自然策略梯度方法,并以全局优化策略为目标,最终达到1/根号T的收敛速率和错误边界。