Feb, 2021

强数据损坏下的鲁棒策略梯度

TL;DR本文研究在奖励和转移方面存在敌对性干扰的鲁棒强化学习问题,并提出了天然策略梯度方法和筛选策略梯度算法可解决该问题,并在 MuJoCo 连续控制基准测试中取得了比较强的鲁棒性。