Sep, 2023

通过频率正规化解决非矩形奖励鲁棒 MDPs

TL;DR研究强健的马尔可夫决策过程中的关键问题,如不确定性集合、计算可行性以及策略访问频率正则化方法,并引入一种收敛的策略梯度方法进行分析。