Apr, 2023
IDQL: 基于扩散策略的隐式 Q 学习作为一个演员 - 评论家方法
IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies
Philippe Hansen-Estruch, Ilya Kostrikov, Michael Janner, Jakub Grudzien Kuba, Sergey Levine
TL;DR使用 Diffusion parameterized behavior policy 和 Implicit Q-learning (IQL) 模型,提出了一个新的 actor-critic 模型,称为 Implicit Diffusion Q-learning (IDQL),能够处理 offline RL 问题中的 out-of-distribution actions。