Oct, 2021

基于隐式 Q 学习的离线强化学习

TL;DR提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法,通过将状态价值函数视为随机变量,利用泛化能力估计在给定状态下最佳可用行为的价值,实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。