ICLROct, 2021

用多步反向动力学方法通过外界干扰证明的强化学习

TL;DR该论文研究了如何在处理高维观测数据时,通过引入先前的表示学习方法从原始观测数据中提取内生潜在状态信息,并在存在外生噪声时进行最优规划。提出了 EX-BMDP 模型,开展了潜在状态发现研究,并介绍了基于预测路径消除算法(PPE)的算法,对于近似确定性的内生状态动态具有很好的采样和计算效率。实验表明该方法具有良好的效果。