Mar, 2022

可数 MDP 中点收益、平均收益和总收益目标的策略复杂性

TL;DR研究使用实值转移奖励的可数无限马尔可夫决策过程(MDPs),并针对不同奖励指标下的策略复杂性建立了完整的模型,确定了实现ɛ最优策略所需的最小记忆量。