May, 2023

Google 研究足球多智能体场景的实证研究

TL;DR本文提供了一个基于群体的多智能体增强学习 (MARL) 训练流程和超参数设置,用于提高 11v11 场景下的足球 AI 性能,这是一个新的开放基准,在 200 万步内从零开始击败了难度为 1.0 的机器人,并介绍了 Independent Proximal Policy Optimization (IPPO) 的预期性能,同时开源了 Light-MALib 训练框架和各种预训练策略。