ICMLJun, 2021
OptiDICE: 通过稳态分布校正估计进行离线策略优化
OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation
Jongmin Lee, Wonseok Jeon, Byung-Jun Lee, Joelle Pineau, Kee-Eung Kim
TL;DR本文提出了一种离线强化学习算法 OptiDICE,通过直接估计最优策略的稳态分布校正来避免过高估计动作值的问题,并使用一系列基准数据集证明了 OptiDICE 与现有最先进方法相比性能具有竞争力。