Mar, 2020
基于元批评学习的离线策略演员 - 评论家方法
Online Meta-Critic Learning for Off-Policy Actor-Critic Methods
Wei Zhou, Yiying Li, Yongxin Yang, Huaimin Wang, Timothy M. Hospedales
TL;DR本文介绍了一种使用 Meta-critic 方法的 Actor-Critic 强化学习算法,可以显著加速学习过程并构建具有高效采样的离线学习框架,通过实验证明了 Meta-critic 方法与离线学习 Off-PAC 算法(包括 DDPG、TD3 和 SAC)相结合,在连续控制环境中取得了显著的性能提升。