Oct, 2022

双曲深度强化学习

TL;DR本文提出了一种新的深度强化学习算法类,其中建模超螺旋空间中的潜在表示。通过使用超螺旋几何提供深度强化学习模型以精确编码本质上分层的信息,借此进行任务相关的关键演化特征的关系捕捉。然而,现有方法中的优化稳定性问题导致 RL 梯度估计器的非稳态和方差性,本文通过设计了一种新的通用方法来解决这些问题并实现深度超螺旋表示的稳定端到端学习,并在 Procgen 和 Atari 100K benchmarks 上验证了该框架的有效性。