Oct, 2019

线性 - 二次均场强化学习:策略梯度方法的收敛性

TL;DR研究如何通过强化学习来解决机器人之间进行优化的问题,证明了基于策略梯度方法的算法在均值场问题中能够收敛。