本文将软Q-学习技术应用于随机博弈中的多智能体系统,实现可调的智能体策略,通过理论和实验贡献,证明了软Q-学习可以在各种不同类型的博弈中实现优异表现。
Feb, 2018
提出在给定特征空间中嵌入转移函数的二人零和随机博弈中,通过采样逼近纳什均衡策略的二人Q-learning算法,已证明可使用与特征数线性相关的样本大小找到ε最优策略;进一步改进算法的样本效率,采用方差约减、单调性保持和双侧策略逼近等技术来加速算法,证明了该算法最多只需要使用O~(K/(ε^2(1-γ)^4))个样本即可以高概率找到ε最优策略,其中K是特征数,γ是折扣系数;算法的样本、时间和空间复杂度与游戏的原始维度无关。
Jun, 2019
本文研究解决折扣二人零和随机游戏的采样复杂度,并提出一种计算策略的算法以及推广现有的MDP算法到多代理设置。
Aug, 2019
提出了一种基于深度神经网络的算法来识别一般大型$N$人随机微分博弈的马尔可夫纳什均衡,该算法的核心思想是将$N$人游戏重塑为$N$个解耦决策问题,并通过迭代解决。
Dec, 2019
该研究基于连续时间技术提出了一个理论模型,旨在研究适应性学习算法之间的策略互动。通过揭示算法之间的自发耦合机制,该研究证明了人工智能算法之间存在的勾结现象,并提出了一种足以消除算法间自发耦合的充分条件,以及设计学习鲁棒性策略的机制所必要的回馈机制。
Feb, 2022
本文研究了基于随机博弈模型的多智能体强化学习中,网络结构化玩家相互作用,混合合作与竞争以及有限的全局信息对于个体决策造成的挑战以及信息可用性对于不同学习范式的影响。并通过实验,探索了不同 MARL 范式的结果,例如集中式学习分散式执行。
May, 2022
本文提出了一种使用神经网络模型来学习协作博弈解决方案,以促进公平合作分配的方法,特别是Shapley value在Explainable AI中的应用。
Aug, 2022
本文研究多人随机博弈中同时学习的问题,通过生成算法获得相关均衡,包括 extensive-form correlated equilibrium 和普通 coarse correlated equilbrium,并提供了一些能够多项式时间内解决的特殊情况。
Oct, 2022
本文探讨了利用奖励机制来实现高级任务的多智能体强化学习算法QRM-SG,能在Nash平衡下在多智能体系统中学习最优策略,并且在三个案例研究中证明了其有效性。
May, 2023
本论文通过合作博弈理论研究了多智能体强化学习中的信用分配问题,提出了一种基于Markov Shapley值的信用分配方案,并应用于能源网络的真实问题上。
Feb, 2024