Aug, 2022

作为离线强化学习表现策略类别的扩散策略

TL;DR本文提出了一种利用扩散模型表示策略的离线强化学习方法 (Diffusion Q-learning),与行为克隆和策略改进的耦合均有助于实现出色的性能,证明了该方法在大多数 D4RL 基准任务中表现出卓越的性能。