Feb, 2019

分布式鲁棒强化学习

TL;DR本文提出了一种基于风险规避的探索策略,使用分布式鲁棒策略迭代方案来确保学习过程中的安全,并在连续状态/操作空间中扩展了此方法,得出了分布式鲁棒软演员-批评家算法的实用算法。