ICLROct, 2023

Hieros: 分级想象结构化状态空间序列世界模型

TL;DR深度强化学习中的一个主要挑战是样本效率问题,通过使用一种层次化策略与世界模型,可以实现对环境的直接交互训练的辅助,以提高想象效率、准确性和探索能力,并在 Atari 100k 基准测试中表现出卓越的性能。