Aug, 2022
作为离线强化学习表现策略类别的扩散策略
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning
Zhendong Wang, Jonathan J Hunt, Mingyuan Zhou
TL;DR本文提出了一种利用扩散模型表示策略的离线强化学习方法 (Diffusion Q-learning),与行为克隆和策略改进的耦合均有助于实现出色的性能,证明了该方法在大多数 D4RL 基准任务中表现出卓越的性能。