Mar, 2022

基于均场博弈的可伸缩深度强化学习算法

TL;DR本文提出了两种方法解决深度强化学习算法在非线性函数逼近下,无法很好地处理 mean field games 的情况。第一种方法是通过神经网络将历史数据蒸馏为混合策略,应用于 Fictitious Play 算法。第二种方法是一种基于正则化的在线混合方法,不需要记忆历史数据或先前的评估,可以扩展在线 Mirror Descent 算法。数值实验表明,这些方法有效地实现了使用深度强化学习算法来解决各种 mean field games 的目的,并且这些方法的表现优于文献中的 SotA 基线。