AAAINov, 2019

确定性马尔科夫决策过程中计算状态相似性的可扩展方法

TL;DR本文针对 MDPs 中 Bisimulation Metrics 的计算提出了新的算法,包括适用于连续状态 MDP 的可微损失函数,其中第一算法通过采样保证收敛性,第二算法通过学习实现了对大规模、确定性 MDP 的近似计算。