Nov, 2022

不联机 Q 学习在多样化的多任务数据上进行同时扩展和泛化

TL;DR本文提出提高离线强化学习性能的方法: 使用ResNets、基于交叉熵的分布备份、特征标准化,取得了良好的性能和容量扩展性。同时,作者展示了通过多样化数据集的离线Q学习可以学习到有用的表示,并实现快速传输到新游戏和在线学习的目标。