Oct, 2019

条件重要性采样用于离线学习

TL;DR本文提出了一个基于条件重要性采样比的离线策略强化学习概念框架,探索了其应用于算法设计的新视角,并证实了它的理论意义及其派生算法。