有限空间均值场型博弈的强化学习
本文研究了具有无限相互作用 agent(例如群体)的平均场多智能体系统,使用经典的假设和单个学习算法分析了虚构迭代方案的收敛性,证明了无模型学习算法在经典MFG动力学假设情况下收敛于非平稳MFG平衡,采用深度RL算法在连续动作空间环境中计算了该虚构博弈方案的近似最佳响应。
Jul, 2019
本研究提出了一种强化学习算法,通过调整两个学习参数的比例,同一算法可以学习解决无限时间视角的均值场游戏与控制问题,并通过离散时间和空间中的智能体提供环境动作与状态分布来解决均值场问题。在连续时间和空间中展示渐进性均值场游戏与控制问题,并使用线性二次问题得到显式解作为算法结果的基准。
Jun, 2020
本文研究了离散时间有限MFG问题,通过使用熵正则化和Boltzmann策略使得固定点迭代收敛到近似固定点,同时提供了在高维场景下使用的近似Nash均衡算法以及结合虚拟博弈的深度强化学习方法。
Feb, 2021
以非线性稠密图马尔可夫游戏为极限,提出了图分块场博弈的新离散时间公式,并通过正则化最优控制解和其生成的平均场重复发现策略梯度加强学习,成功获得在众多玩家的场景中可行的近似纳什均衡。
Nov, 2021
该论文综述如何运用强化学习和均值场博弈来解决无法通过传统方法计算的大规模人口问题,并针对静态、平稳和演变三个最常见的情境,提出一套基于最佳策略和策略评估的迭代方法以及没有模型计算的强化学习解决方案。
May, 2022
我们提出了一种强化学习算法,用于以统一的方式解决连续空间均场博弈和均场控制问题。该算法使用参考分数函数和Langevin动力学来表示均场分布,通过在线方式高效地更新,并通过迭代更新,收敛于给定均场问题的均衡点或最优点。该算法可以简单修改以解决混合均场控制博弈,并在渐进无限时域框架中使用线性二次基准函数进行性能评估。
Sep, 2023
本研究论文提出了一种利用强化学习来实现团队合作与跨团队竞争的线性二次结构的方法,并通过均值场设定下的广义和型场博弈,证明了该方法能够有效地达到纳什均衡。通过将问题分解为子问题,并利用时间独立对角优势下的后向递归离散时间哈密顿-雅可比-艾萨克斯方程,进一步证明了多人迅速消退自然策略梯度算法能够收敛到全局纳什均衡。实验结果验证了该方法在实践中的优点。
Mar, 2024
MF-OML是第一个为大规模多代理随机对称博弈问题中计算近似Nash平衡提供证明的遗憾边界的完全多代理强化学习算法,通过计算累积偏差达到高概率遗憾边界,从而为单调均场博弈提供了可行的全局收敛的计算算法。
May, 2024
本研究解决了现有均值场博弈(MFG)在多智能体强化学习中面临的对称性假设限制问题,提出了一种将任意有限玩家的可能不对称博弈扩展为“诱导MFG”的方法。研究表明,针对新提出的α,β-对称博弈,诱导的MFG的纳什策略可以作为N玩家动态博弈的近似纳什策略,且在特定条件下,学习一个ε-纳什策略的样本复杂度为$\tilde{\mathcal{O}}(\varepsilon^{-6})$,为多智能体系统的学习提供了新的理论支持和实践潜力。
Aug, 2024