多智能体自学课程中的紧急工具使用
本文介绍了几种在三维环境中进行竞争多智能体自我对抗训练的方法,这些方法可以训练出丰富多彩、技能复杂的智能体。此外,我们指出,自我对抗训练可以产生超出环境本身复杂性的行为,并且自带课程设置,有助于智能体学习不同难度水平下的技能。
Oct, 2017
通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境,我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步:从随机的行为到简单的球追逐,最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案,可以在没有预定义评估任务或人类基准的情况下评估代理的性能。
Feb, 2019
本文提出了在多个智能体环境中,为每个RL 智能体提供直接向其它智能体给予奖励的能力,并通过学习后的激励函数影响其它智能体,从而达到协作的目的。实验结果显示,在 challenging general-sum Markov games 中,相对于标准RL和对手建模代理,这种方法在寻找最优的分工方面取得了巨大的成功。
Jun, 2020
本文介绍了一种基于多智能体、开放式学习的方法,其能够使得智能体在一种包含大量挑战、跨越多个任务、更广泛的行为通用化领域中表现出非凡的学习能力。通过在环境中建立一个任务的宇宙,我们的训练代理能够跨越更广泛的任务领域,这个领域自然多智能体,涉及合作竞争等多种类型的游戏,而这一领域的挑战对于智能体来说多种多样,因此,我们提出了一种迭代方法来改进代理的效果,而不是试图最大化一个单一目标。最终,我们证明了这种代理的通用能力,可以通过简单的微调实现更大规模的行为传递。
Jul, 2021
通过提供内在的奖励机制,增加多智能体环境中RL学习的效率,我们在多智能体 Hide and Seek 和单智能体迷宫任务中,考察了一系列根据预测问题构建的内在老师奖励,并发现其中价值不一致是最为稳健和高效的奖励方式。
Mar, 2022
我们提出了一种新的多智能体模仿学习模型,用于预测对手的下一步动作,并将其与策略训练结合为一个训练过程的多智能体强化学习算法,在三个具有挑战性的游戏环境中进行了广泛实验,结果表明我们的方法在性能上优于现有的多智能体强化学习算法。
Aug, 2023
第二届Neural MMO挑战赛的结果表明,在多智能体系统中的鲁棒性和泛化性能上取得了令人满意的成果,参与者通过使用标准强化学习方法结合领域特定的工程技术,训练出能够在与训练过程中未见过的对手下完成多任务目标的智能体团队。该挑战赛的设计和结果总结表明,作为学术界的一种强有力的方法,竞赛可以解决难题并为算法建立可靠的基准。我们将开源我们的基准测试,包括环境封装器、基准模型、可视化工具和选定的策略,以供进一步研究。
Aug, 2023
本研究解决了多智能体系统中有效学习协作行为的难题。我们提出了一种高效明确的方法,通过借助单个人类专家的指导,让智能体学习协作。这一方法在具有挑战性的合作捉迷藏任务中提升了成功率,证实了在人类指导下,智能体能够有效协作,且实验结果能够应用于现实世界。
Sep, 2024