Feb, 2024

基于模型的均场博弈强化学习并不比单智能体强化学习更难统计

TL;DR通过引入局部模型产品逃避维度(P-MBED)概念,提出了一种模型消除算法,并建立了与P-MBED多项式相关的样本复杂度结果,从而揭示了在一定假设条件下,学习均场博弈中的纳什均衡不比解决对数数量的单智能体强化学习问题更具统计学挑战。