Apr, 2023

IDQL: 基于扩散策略的隐式 Q 学习作为一个演员 - 评论家方法

TL;DR使用 Diffusion parameterized behavior policy 和 Implicit Q-learning (IQL) 模型,提出了一个新的 actor-critic 模型,称为 Implicit Diffusion Q-learning (IDQL),能够处理 offline RL 问题中的 out-of-distribution actions。