Apr, 2022

COptiDICE: 离线约束强化学习基于稳态分布修正估计

TL;DR本文提出了一种基于COptiDICE的离线约束强化学习算法,该算法直接估计稳态分布的矫正值以优化策略,以满足成本约束,并在实验中表现出更好的约束满足和回报最大化的策略.