Jun, 2020

离线强化学习的保守型 Q 学习

TL;DR本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略