Dec, 2021

多环境下的无监督强化学习

TL;DR本文提出了一种针对多个环境的无监督强化学习方法,即先通过多个环境的交互数据对策略进行预训练,然后在任意环境下对其进行微调;提出了一种探索策略探索环境中的关键状态;最终通过实验证明了该方法相较从头开始学习的方法明显优势。