May, 2023

无模型鲁棒平均奖励强化学习

TL;DR该研究主要关注如何处理模型不确定性对于Markov决策进程的影响。研究提出了两个无模型算法并探讨了常用的不确定性集合。