Aug, 2024

基于随机半梯度下降的平均场博弈学习与人口感知函数逼近

TL;DR本研究解决了传统平均场博弈学习方法在效率和稳定性方面的不足,提出了一种在线学习方法SemiSGD,能够实现代理同时更新策略与人口估计。该方法提供了新的视角,将价值函数和人口分布视为统一参数,并实现了在连续状态-动作空间上首个支持人口感知的线性函数逼近,具有有限时间收敛性和逼近误差分析。