Jul, 2024

MDP 几何、归一化和无价值解算器

TL;DR本文介绍了对马尔可夫决策过程(MDP)的一种新的几何解释,该解释有助于分析主要 MDP 算法的动态特性。基于这种解释,我们证明了 MDPs 可以分成等价类,其算法动态性质难以区分。相关的标准化过程允许设计一类新的 MDP 求解算法,可以在不计算策略值的情况下找到最优策略。