Feb, 2023

使用课程学习和自我对弈掌握多智能体足球 (TiZero)

TL;DR本文提出了一种自我演化的多智能体系统 TiZero,使用自适应课程学习、自我博弈策略、多方策略的优化目标等创新方法克服了多个智能体系统协调、长期规划和非传递性等现有算法无法解决的难题,并在评估环境中全胜,比谷歌提供的前一代系统获胜率提高了 30% 以上。对 TiZero 的技术进行了评估,包括在 Overcooked,多智能体粒子环境,井字棋和连连看等多个领域中的应用。