Jun, 2024

关于连接型 MDP 中价值迭代的收敛性

TL;DR该论文证明,具有唯一最优策略和符合遍历性条件的转移矩阵的 MDP 可以保证各种版本的值迭代算法以超过折扣因子 γ 的几何速度收敛,适用于折扣和平均奖励标准。