IJCAIJun, 2021

使用残差生成建模提升离线强化学习

TL;DR本文主要研究离线强化学习中的生成建模和状态 - 动作值函数学习,并提出了一种新的针对离线强化学习中策略近似误差的残差生成模型 AQL。实验证明,AQL 可以在不同质量测试数据集中学习到更准确的政策近似。另外,该离线 RL 方法在多人在线战场游戏 “王者荣耀” 中能够学习到更具竞争力的 AI 代理。