Sep, 2023
通过频率正规化解决非矩形奖励鲁棒 MDPs
Solving Non-Rectangular Reward-Robust MDPs via Frequency Regularization
Uri Gadot, Esther Derman, Navdeep Kumar, Maxence Mohamed Elfatihi, Kfir Levy...
TL;DR研究强健的马尔可夫决策过程中的关键问题,如不确定性集合、计算可行性以及策略访问频率正则化方法,并引入一种收敛的策略梯度方法进行分析。