May, 2023

成长式批次强化学习中的教师向学生知识转移

TL;DR本文探讨在离线和有人专家参与的环境下,如何利用专家提供的数据及信息来改善演员-评论家方法的样本需求复杂性和覆盖率,并在DeepMind Control Suite上验证了这一方法。