Jun, 2024

深入探索层级世界模型在强化学习中的限制

TL;DR层次模型强化学习(HMBRL)旨在将模型强化学习(MBRL)的更好的样本效率与层次化强化学习(HRL)的抽象能力结合起来,以高效地解决复杂任务。我们在这项工作中描述了一个新颖的HMBRL框架,并进行了全面评估。通过构建模拟不同时间抽象水平下环境动态的层次化世界模型来补充HRL的多层次决策制定方式。这些模型用于训练一系列以自上而下方式进行通信的代理,向下级代理提出目标。本研究的一个重点是探索静态且环境无关的时间抽象,从而允许在层次结构中同时训练模型和代理。与大多数以目标条件化的H(MB)RL方法不同,这也导致了较低维度的抽象动作。尽管我们的HMBRL方法在最终回合收益方面表现没有传统方法好,但它成功地利用紧凑、低维度的抽象动作在两个抽象层次上进行决策。我们在全面的实验中揭示了提高我们方法性能的一个核心挑战,即在我们的世界模型堆栈的抽象层级上进行模型利用。我们对这个问题进行了深入研究,讨论了它对领域的影响,并提出了克服这一挑战的未来研究方向。通过分享这些发现,我们旨在为改进HMBRL方法论的广泛讨论做出贡献,并帮助开发更有效的复杂决策环境的自主学习系统。