Nov, 2022
注重最坏情况鲁棒性的Max-Min离线策略演员-评论家算法
Max-Min Off-Policy Actor-Critic Method Focusing on Worst-Case Robustness
to Model Misspecification
TL;DR探讨了强化学习中的模拟环境和真实环境之间存在的不匹配问题,设计了一种基于最小-最大优化的离线演员-评论家算法(M2TD3)来优化不确定性参数集上的最坏情况表现,实现了该方法在MuJoco环境中的效果优于多个基准方法。