Jun, 2022

通过限制条件风险价值实现安全的强化学习

TL;DR本文介绍了一种新的增强学习算法 - CVaR-Proximal-Policy-Optimization (CPPO),该算法利用条件风险价值 (CVaR) 进行评估,同时保持其 CVaR 在给定阈值以下,实现了在连续控制任务中对观测和转移扰动更强的鲁棒性。