Mar, 2024

弱通信和普通平均奖励 MDP 的基于跨度的最优样本复杂度

TL;DR在平均奖励马尔可夫决策过程中,研究学习一种 ε- 最优策略的样本复杂性,提出了最小化的复杂性边界和匹配的极小化下界,通过将平均奖励 MDP 转化为折扣 MDP 来实现优化,并发展了关于方差参数的上限,结果显示弱通信边界优于基于 MDP 的混合时间或直径的边界。