本文介绍了几种在三维环境中进行竞争多智能体自我对抗训练的方法,这些方法可以训练出丰富多彩、技能复杂的智能体。此外,我们指出,自我对抗训练可以产生超出环境本身复杂性的行为,并且自带课程设置,有助于智能体学习不同难度水平下的技能。
Oct, 2017
本文提出了一种基于协调信号的多智能体强化学习模型,该模型可以改善现有去中心化执行模型中个体协调的局限性,并且在多种博弈场景下具有较好的表现。
Sep, 2019
通过多智能体竞争、自我监督的自动课程设置以及规模化的强化学习算法,我们发现代理创建了多个不同的新兴策略,其中许多需要复杂的工具使用和协调,并提供了有关多智能竞争可能扩展至更复杂环境的证据。
为实现人工智能在团队比赛中与人类的合作,本文提出了一种基于分层式多智能体强化学习算法的技能发现和团队协作方法,并通过实验验证其可行性。
Dec, 2019
研究了多智能体策略在混合合作-竞争环境下的学习问题,提出使用图神经网络和强化学习联合训练的方法,并可以将其应用在异构多智能体行为的研究中。最终,提出了集合训练的算法,将对手 Agent 的策略融合到训练中,以提高团队的整体表现。
Jul, 2020
本研究使用多智能体协同学习模型,在模拟环境中训练了一组虚拟的足球运动员,研究并展示了在不同时间尺度上,采用不同层次抽象的行为表征下,机器人团队的协作行为出现的现象与优势。
May, 2021
本研究采用多智能体相互作用的方法,开发了一个可扩展的具有现实物理和人类相关语义的竞争环境,旨在解决强探索环境中的问题,并进行了多项实验以获得简单的新兴策略和未来改进的具体方向。
Jan, 2023
使用 Stackelberg Multi-Agent Deep Deterministic Policy Gradient (ST-MADDPG) 的算法,优化自我进化过程中的智能体沟通模式,提高多智能体学习的有效性和鲁棒性。
May, 2023
我们提出了一种新的多智能体模仿学习模型,用于预测对手的下一步动作,并将其与策略训练结合为一个训练过程的多智能体强化学习算法,在三个具有挑战性的游戏环境中进行了广泛实验,结果表明我们的方法在性能上优于现有的多智能体强化学习算法。
Aug, 2023
在多智能体环境中,通过使用降低技能水平的协作队友为学习代理制定学习课程,能够同时实现任务完成与整体团队奖励最优。
Dec, 2023