ICMLJun, 2021

OptiDICE: 通过稳态分布校正估计进行离线策略优化

TL;DR本文提出了一种离线强化学习算法 OptiDICE,通过直接估计最优策略的稳态分布校正来避免过高估计动作值的问题,并使用一系列基准数据集证明了 OptiDICE 与现有最先进方法相比性能具有竞争力。