Jun, 2020

针对均场博弈和控制问题的统一强化学习 Q-Learning

TL;DR本研究提出了一种强化学习算法,通过调整两个学习参数的比例,同一算法可以学习解决无限时间视角的均值场游戏与控制问题,并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题,并使用线性二次问题得到显式解作为算法结果的基准。