Apr, 2023

强化学习中的三次正则化策略牛顿算法

TL;DR论文探讨了基于强化学习的控制问题,提出了两种策略牛顿算法,并证明了算法的渐进收敛性和样本复杂度。