May, 2023

非矩形不确定性集合的鲁棒MDP策略梯度算法

TL;DR本研究提出了一种策略梯度算法,解决了鲁棒无限期马尔可夫决策过程中的非矩形不确定性集的问题,为相关领域的研究提供了可行性。