Jun, 2022

风险厌恶强化学习中的均值半方差策略优化

TL;DR本文旨在优化均值 - semivariance(MSV)目标,提出了两种基于策略梯度理论和信任域方法的算法,通过在 MuJoCo 上的实验验证其有效性。