BriefGPT.xyz
Ask
alpha
关键词
filtered policy gradient (fpg)
搜索结果 - 1
强数据损坏下的鲁棒策略梯度
本文研究在奖励和转移方面存在敌对性干扰的鲁棒强化学习问题,并提出了天然策略梯度方法和筛选策略梯度算法可解决该问题,并在 MuJoCo 连续控制基准测试中取得了比较强的鲁棒性。
PDF
3 years ago
Prev
Next