Feb, 2021

强化学习通用化中价值与策略的解耦

TL;DR提出了一种新的深度强化学习算法 IDAAC,采用不变性分离的方式,分别优化策略和价值函数,通过辅助损失使表示对环境的任务无关属性具有不变性,该算法在 Procgen 基准测试中表现出很好的泛化性能,并在 DeepMind 控制任务中超过了流行方法。