Oct, 2019

无模型均场强化学习:均场 MDP 和均场 Q-Learning

TL;DR通过视角转换,我们研究了具有共同噪声的无限时长打折的均场控制问题,并提出了一种适用于均值场设置的 RL 方法。