通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境,我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步:从随机的行为到简单的球追逐,最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案,可以在没有预定义评估任务或人类基准的情况下评估代理的性能。
Feb, 2019
研究探讨了多代理系统的动态演化,提出了自学课程的假说,解释了社会任务解决时的新任务的产生以及挑战的不断增加。
Mar, 2019
本文介绍了几种在三维环境中进行竞争多智能体自我对抗训练的方法,这些方法可以训练出丰富多彩、技能复杂的智能体。此外,我们指出,自我对抗训练可以产生超出环境本身复杂性的行为,并且自带课程设置,有助于智能体学习不同难度水平下的技能。
Oct, 2017
研究了多智能体策略在混合合作 - 竞争环境下的学习问题,提出使用图神经网络和强化学习联合训练的方法,并可以将其应用在异构多智能体行为的研究中。最终,提出了集合训练的算法,将对手 Agent 的策略融合到训练中,以提高团队的整体表现。
Jul, 2020
提出了一个基于多臂赌博机问题的代理模型,该模型根据环境的熵条件动态调整目标,从而鼓励在不同熵环境中出现新的行为和学习技能。
May, 2024
通过模拟多智能体社会进行微观经济学自动形成的基本现象,本文提供了一个以微观经济学为灵感的环境,其中智能体在一个复杂的空间世界中学习生产资源,与其他智能体交易和消费资源,并演示了产生的经济行为如何响应各种环境条件。
May, 2022
使用 Stackelberg Multi-Agent Deep Deterministic Policy Gradient (ST-MADDPG) 的算法,优化自我进化过程中的智能体沟通模式,提高多智能体学习的有效性和鲁棒性。
May, 2023
本研究采用多智能体相互作用的方法,开发了一个可扩展的具有现实物理和人类相关语义的竞争环境,旨在解决强探索环境中的问题,并进行了多项实验以获得简单的新兴策略和未来改进的具体方向。
Jan, 2023
通过提出动态协同(Alice 和 Bob)的兴趣课程,使用一种适当的奖励机制,有效地进行无人监督的强化学习,用于环境感知系统中的智能体的训练
Mar, 2017
通过大规模智能体强化学习,在竞争和合作中研究了人工集体智能的出现,其中用 Lux 环境搭建了两个团队的大规模动态智能体,通过中央控制和自我协同演变,从单一技能到团队策略逐步发展,并分析了各种策略的出现,可为强化学习在大规模环境中的实现提供启示。