Mar, 2020

基于元批评学习的离线策略演员 - 评论家方法

TL;DR本文介绍了一种使用 Meta-critic 方法的 Actor-Critic 强化学习算法,可以显著加速学习过程并构建具有高效采样的离线学习框架,通过实验证明了 Meta-critic 方法与离线学习 Off-PAC 算法(包括 DDPG、TD3 和 SAC)相结合,在连续控制环境中取得了显著的性能提升。