May, 2023

通过无悔动力学求解健壮 MDP

TL;DR通过解决最小最大迭代优化问题的简单框架,我们利用在线非凸学习和改进策略梯度方法的技术,提出了一种算法,该算法在 $O (1/T^{1/2})$ 的时间内能最大化带着鲁棒性的价值函数。