AAAIApr, 2020

风险规避强化学习的均值方差策略迭代

TL;DR本研究提出了一种基于平均方差策略迭代 (MVPI) 框架的风险规避控制方法,采用任意策略评估方法和风险中立控制方法,通过对一个新颖的扩展 MDP 直接进行处理,减少风险中立控制与风险规避控制之间的差距,并介绍了一种风险规避 TD3 方法作为 MVPI 的示例。该方法在 Mujoco 机器人仿真任务中优于传统 TD3 方法和其他风险规避控制方法。