从运动控制到团队合作——在仿真人形足球中
本文研究多个协调代理的演示的模仿学习问题,提出了一种综合了无监督结构学习和传统模仿学习的方法来同时学习潜在的协调模型和单个策略,通过在团队运动中学习多个策略的行为建模问题,表明了本文方法的强大之处。
Mar, 2017
通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境,我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步:从随机的行为到简单的球追逐,最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案,可以在没有预定义评估任务或人类基准的情况下评估代理的性能。
Feb, 2019
介绍了一项新的强化学习环境 - 谷歌足球环境,提供支持多人和多代理实验的虚拟学习环境和用于测试和展示强化学习算法的三种难度场景与一组更简单的场景。
Jul, 2019
本文提出了一种自我演化的多智能体系统TiZero,使用自适应课程学习、自我博弈策略、多方策略的优化目标等创新方法克服了多个智能体系统协调、长期规划和非传递性等现有算法无法解决的难题,并在评估环境中全胜,比谷歌提供的前一代系统获胜率提高了30%以上。对TiZero的技术进行了评估,包括在Overcooked,多智能体粒子环境,井字棋和连连看等多个领域中的应用。
Feb, 2023
本文研究了深度强化学习在机器人学中的应用,通过模拟训练,在低成本仿真机器人上实现了动态环境下复杂足球比赛中从走路到踢球等一系列动作表现出稳定流畅的运动技能,并取得了不错的效果。
Apr, 2023
本文提供了一个基于群体的多智能体增强学习(MARL)训练流程和超参数设置,用于提高11v11场景下的足球AI性能,这是一个新的开放基准,在200万步内从零开始击败了难度为1.0的机器人,并介绍了Independent Proximal Policy Optimization(IPPO)的预期性能,同时开源了Light-MALib训练框架和各种预训练策略。
May, 2023
本文提出了一种基于多智能体深度强化学习的综合框架,用于对足球比赛中的在场和离场球员进行可能动作的价值评估,该方法能够连续地评估多个球员的动作,对于团队合作、球员球迷活动等具有重要意义。
May, 2023
我们运用多智能体深度强化学习(RL)通过自我中心的RGB视觉训练端到端的机器人足球策略,解决了现实世界机器人领域中的许多挑战,包括主动感知、灵活的全身控制和长时间跨度的计划等。该论文是首次展示了通过将原始像素观测映射到关节级动作的端到端多智能体机器人足球的训练,并能够在真实世界中部署。
May, 2024