Oct, 2020

单隐藏层神经网络在均场极限下 softmax 策略梯度的全局最优性

TL;DR本文主要研究了在无限折扣马尔可夫决策过程下,采用 softmax 策略和非线性函数逼近结合策略梯度算法的策略优化问题。研究了广泛性的单隐藏层神经网络在探索过程中的行为,证明了其在参数空间中的分布也可以确定一阶 Wasserstein 梯度流,且当参数初始化满足一定条件时,其固定点为全局最优解。