本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境,我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步:从随机的行为到简单的球追逐,最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案,可以在没有预定义评估任务或人类基准的情况下评估代理的性能。
Feb, 2019
本文研究了斯塔克伯格博弈中学习动态的收敛性,并提出了一种基于梯度的学习更新规则,用于训练生成对抗网络。
Jun, 2019
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
为实现人工智能在团队比赛中与人类的合作,本文提出了一种基于分层式多智能体强化学习算法的技能发现和团队协作方法,并通过实验验证其可行性。
Dec, 2019
本研究提出了一种将 Stackelberg 平衡搜索实现为多智能体强化学习问题的通用框架,并借助多任务和元强化学习技术实现了一种使用情境策略的方法,在标准和新颖的基准领域上进行了实验,并显示出较以前的方法大大提高的样本效率。同时,我们探讨了超出我们框架边界的算法设计所带来的影响。
Oct, 2022
通过非耦合学习过程,本文提出一个新的学习规则,能够仅仅依靠每个玩家对其他玩家行为的观察,推动玩家向局部Stackelberg均衡演化,本规则对人工智能合作和多智能体强化学习具有潜在应用。
Feb, 2023
该论文介绍了一种名为SPC的新型自动课程学习框架,该框架将课程学习应用于多智能体协调中,通过赋予学生团体不变的通信和分层技能,在不同数量的代理任务中学习合作和行为技能,并在学生策略的条件下将老师建模为一个情境式赌博机,提高了MARL环境下的性能、可伸缩性和样本效率。
该论文提出了一种基于Stackelberg equilibrium的、具有异步行动协调的N级政策模型,通过共享条件超网络,使智能体可以学习不同的策略而不导致学习成本、存储成本以及扩展性的增加。实验证明,该模型在重复博弈场景中可以成功收敛到Stackelberg equilibrium,对于合作任务和混合任务的完成也表现非常出色。
Apr, 2023
本文介绍了一个基于子博弈课程学习框架(Subgame Automatic Curriculum Learning,SACL)的新算法,通过重置智能体到先前访问过的状态来加速学习,使用 SACL 可以生成比基线更强的策略,并且在 hide-and-seek quadrant 环境中使用了比 MAPPO 自我对抗训练只多一半的样本,得出了四个新的发展阶段。
Oct, 2023