Oct, 2022

高维状态空间中具有有限时间保证的马尔可夫决策过程的结构估计

TL;DR本文提出了一种单步估计算法,用于处理高维状态空间,同时又不会降低奖励估计精度的问题。该算法通过随机梯度最大化似然函数,使每次策略改进都能够进行。研究表明,该算法可以达到平稳状态,同时在 MuJoCo 机器人控制问题和其转移设置中,相比其他逆向强化学习算法和模仿学习基准,该算法表现更好。