Aug, 2022

基于模型无关生成回放的终身强化学习:以星际争霸 2 为例

TL;DR本研究研究了三种 LRL 模型的生成式重演(GR)机制,提高了迁移学习等量化指标以及解决了忘却问题。通过实验结果表明,该机制在深度 RL 代理的潜藏向量空间内防止特征到行为映射发生漂移,缩小了训练样本数量,具有较高的实验价值。