Jun, 2024

折扣马尔可夫决策过程中均值方差的时限差异学习有限时间分析

TL;DR针对折扣奖励马尔可夫决策过程(MDP)中方差的策略评估问题,我们推导了有限样本界限,该界限在均方差意义上成立,并在使用 / 不使用正则化的尾值迭代平均值时具有高概率,而且误差的初始衰减呈指数衰减,总界限为 $O (1/t)$,其中 $t$ 是 TD 算法的更新迭代次数。此外,正则化 TD 变体的界限是通用步长。我们的界限为折扣 MDP 中的均值 - 方差优化的演员 - 评论家算法分析提供了新的途径。