关于团队运动比赛中的多智能体学习
本研究提出了一个新颖的两层优化过程来训练共有多个独立的强化学习智能体,这些智能体仅使用Q3A视频游戏的像素和游戏得分作为输入,即使在富有挑战性的多智能体环境中互相协作和竞争,这些智能体也能够达到类人水平,并展现出人类般的行为表现。
Jul, 2018
这篇文章介绍了基于视频预测模型的 Simulated Policy Learning 方法,该方法通过在仅与环境交互 100k 次(两小时实时游戏)的情况下,在多个 Atari 游戏中实现比现有的基于模型无关的方法更好的表现。
Mar, 2019
提出一种基于预训练的RL策略库和规则策略的人类无模型自适应代理架构,通过一种新的相似性度量方法推断人类策略并选择最具互补性的策略,以此最大化团队在人类机器协作中的总体表现。
Mar, 2021
提出COPA框架应对动态团队组合,使用注意力机制协调教练具有全局视图和只能看到部分视图的玩家,通过分配个体策略和自适应通信方法,验证了方法在资源收集任务、救援游戏和星际争霸微观管理任务上的性能。
May, 2021
本研究提出了一种名为 Heterogeneous League Training (HLT) 的通用强化学习算法,用于解决异构多智能体问题,试验结果表明 HLT 可以提高异构团队在合作任务中的成功率,是解决策略版本迭代问题的有效途径,提供了评估异构团队中每个角色难度的实际方法。
Nov, 2022
本文提出了一种自我演化的多智能体系统TiZero,使用自适应课程学习、自我博弈策略、多方策略的优化目标等创新方法克服了多个智能体系统协调、长期规划和非传递性等现有算法无法解决的难题,并在评估环境中全胜,比谷歌提供的前一代系统获胜率提高了30%以上。对TiZero的技术进行了评估,包括在Overcooked,多智能体粒子环境,井字棋和连连看等多个领域中的应用。
Feb, 2023
本文提供了一个基于群体的多智能体增强学习(MARL)训练流程和超参数设置,用于提高11v11场景下的足球AI性能,这是一个新的开放基准,在200万步内从零开始击败了难度为1.0的机器人,并介绍了Independent Proximal Policy Optimization(IPPO)的预期性能,同时开源了Light-MALib训练框架和各种预训练策略。
May, 2023
我们提出了一种新的多智能体模仿学习模型,用于预测对手的下一步动作,并将其与策略训练结合为一个训练过程的多智能体强化学习算法,在三个具有挑战性的游戏环境中进行了广泛实验,结果表明我们的方法在性能上优于现有的多智能体强化学习算法。
Aug, 2023