Apr, 2024

增长型 Q 网络:用自适应控制分辨率解决连续控制任务

TL;DR近期的强化学习方法在解决连续控制基准问题时表现出了令人惊讶的强大能力,通过粗糙的动作空间离散化实现了有利的探索特性,而在没有动作惩罚的情况下,最终性能并不明显受到影响。本文旨在通过从粗控制到细控制的分辨率增长,结合解耦的 Q 学习最新成果,将我们的方法扩展到高维动作空间,最多达到 dim (A) = 38。我们的研究表明,自适应控制分辨率结合价值分解可以得到仅用于评论的简单算法,在连续控制任务上表现出令人惊讶的强大性能。