May, 2024

截断方差减小的值迭代

TL;DR我们提供了一种更快的随机算法,用于在具有有限状态动作对、有界奖励和折扣因子的折扣马尔可夫决策过程中计算 ε- 最优策略。我们通过在采样设置和离线设置中提供不同的时间算法,进一步优化了之前的最先进技术。我们的方法基于先前的随机方差减少值迭代方法,通过引入新的方差减少采样过程并优化其迭代进展,能够在没有模型的情况下实现,并在模型自由和基于模型方法之间填补了样本复杂性差距。