使用课程学习和自我对弈掌握多智能体足球(TiZero)

Feb, 2023

使用课程学习和自我对弈掌握多智能体足球(TiZero)

TiZero: Mastering Multi-Agent Football with Curriculum Learning and Self-Play

Fanqi Lin, Shiyu Huang, Tim Pearce, Wenze Chen, Wei-Wei Tu

TL;DR本文提出了一种自我演化的多智能体系统TiZero，使用自适应课程学习、自我博弈策略、多方策略的优化目标等创新方法克服了多个智能体系统协调、长期规划和非传递性等现有算法无法解决的难题，并在评估环境中全胜，比谷歌提供的前一代系统获胜率提高了30%以上。对TiZero的技术进行了评估，包括在Overcooked，多智能体粒子环境，井字棋和连连看等多个领域中的应用。

Abstract

Multi-agent football poses an unsolved challenge in AI research. Existing work has focused on tackling simplified scenarios of the game, or else leveraging expert demonstrations. In this paper, we develop a multi-agent system to play the full 11 vs. 11 game mode, without demonstrations

发现论文，激发创造

竞争中的协同涌现

通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境，我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步：从随机的行为到简单的球追逐，最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案，可以在没有预定义评估任务或人类基准的情况下评估代理的性能。

Feb, 2019

关于团队运动比赛中的多智能体学习

本文提出了一种分层训练智能体的方法，以期在团队运动游戏中实现类似于人类的风格和高水平的表现，初步结果显示所提出的方法具有解决多智能体学习问题的潜力。

Jun, 2019

Google Research Football: 一种新的强化学习环境

介绍了一项新的强化学习环境 - 谷歌足球环境，提供支持多人和多代理实验的虚拟学习环境和用于测试和展示强化学习算法的三种难度场景与一组更简单的场景。

Jul, 2019

从运动控制到团队合作——在仿真人形足球中

本研究使用多智能体协同学习模型，在模拟环境中训练了一组虚拟的足球运动员，研究并展示了在不同时间尺度上，采用不同层次抽象的行为表征下，机器人团队的协作行为出现的现象与优势。

May, 2021

公正博弈：强化学习的挑战

本文介绍了 AlphaZero 和 MuZero 的算法，探究了它们的局限性，并提供了新的瓶颈测试方法以解决 AlphaZero 在某些博弈游戏中学习能力不足的问题，并发现 AlphaZero 在解决 nim 游戏时会面临严重的问题。

May, 2022

通过奖励塑造将上下文信息嵌入多智体学习中：以Google足球为例的案例研究

本研究旨在通过奖励塑形方法来解决多智能体环境下MARL算法以及稀疏奖励信号产生的挑战，在Google Research Football环境中实验结果表明，奖励塑形方法对于训练多智能体环境下的RL算法是有用的。

Mar, 2023

Google研究足球多智能体场景的实证研究

本文提供了一个基于群体的多智能体增强学习(MARL)训练流程和超参数设置，用于提高11v11场景下的足球AI性能，这是一个新的开放基准，在200万步内从零开始击败了难度为1.0的机器人，并介绍了Independent Proximal Policy Optimization(IPPO)的预期性能，同时开源了Light-MALib训练框架和各种预训练策略。

May, 2023

基于多智能体深度强化学习的进攻和防守足球球员动作价值评估

本文提出了一种基于多智能体深度强化学习的综合框架，用于对足球比赛中的在场和离场球员进行可能动作的价值评估，该方法能够连续地评估多个球员的动作，对于团队合作、球员球迷活动等具有重要意义。

May, 2023

多样性即实力：通过互动式多智能体强化学习掌握足球全场比赛

本研究提出了「多样性即实力（DIS）」深度强化学习训练框架，该框架可以同时训练多种类型的人工智能，以增强其能力和策略多样性，并通过模型评估和筛选方案选择最佳模型以丰富模型池并获得最终的人工智能。该方法通过在Google Research Football（GRF）基础上进行的人工智能比赛的测试，在复杂的多智能体环境中首次使GRF人工智能在5v5和11v11赛道上都有很高的水平，其行为分析表明所训练的人工智能具有丰富的策略，并且消融实验证明了设计的模块有益于训练过程。

Jun, 2023

模仿以获胜：多智能竞争游戏中的模仿学习策略

我们提出了一种新的多智能体模仿学习模型，用于预测对手的下一步动作，并将其与策略训练结合为一个训练过程的多智能体强化学习算法，在三个具有挑战性的游戏环境中进行了广泛实验，结果表明我们的方法在性能上优于现有的多智能体强化学习算法。

Aug, 2023