May, 2024

基于扩散的离线强化学习中的长时程回滚动态模型

TL;DR探索如何将扩散模型(DMs)的能力作为动力学模型在完全离线环境中解耦,以允许学习策略展开轨迹,并展示了 DyDiff 在离线强化学习中的有效性。