Sep, 2021

通过学习主策略进行均场博弈中的泛化

TL;DR利用机器学习中的泛化功能,我们研究如何学习政策,使典型代理能够针对任何人口分布表现最佳。我们提出了一种方法来学习这样的 Master 策略,并且证明了单个 Master 策略提供了纳什均衡。我们的方法基于三个方面:将当前人口分布添加为观察的一部分,使用神经网络逼近 Master 策略,使用强化学习和虚拟博弈进行训练。我们通过数值示例展示了所学习的 Master 策略的高效性以及其超越训练中使用的分布的推广能力。