多智能体团队中可迁移合作行为的学习
通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境,我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步:从随机的行为到简单的球追逐,最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案,可以在没有预定义评估任务或人类基准的情况下评估代理的性能。
Feb, 2019
本文提出了一种基于组织心理学和早期人工智能团队工作的新型强化学习智能体多智能体团队模型,验证结果表明,尽管有不合作的动机,代理分成团队后仍然能发展出合作的政策,能在团队内更好地协调和学习相应角色,并比所有代理利益一致时获得更高的回报。
May, 2022
我们提出了一个基于角色的多智能体强化学习框架,该框架使用角色分配网络将学习代理分配到团队中,以适应不同的团队大小,并通过 StarCraft II 模拟来展示该方法的有效性。
Apr, 2022
本文提出了一种新的算法,名为 Learning to Coordinate and Teach Reinforcement(LeCTR),通过在协作多智能体强化学习中使每个代理都学习何时提供何种建议,从而改善整个团队性能和学习效果。实证比较表明,我们的教学代理不仅学习速度更快,而且在现有方法失败的任务中也学会了协作。
May, 2018
本文提出了一种基于任务表示的团队适应方法,通过学习任务之间的共同结构,使得团队可以在少量的源任务学习之后将协作知识传递到新任务上。我们发现微调转移策略有助于解决那些从头开始难以学习的任务。
Mar, 2022
提出一种基于多智能体强化学习和图神经网络通讯层的方法,在火灾管理资源分配中,通过通信环境特征和部分可见火灾,实现协作分配资源,优于贪心启发式基线和单智能体设置,并展示了自动课程和开放性对其泛化能力的改善。
Apr, 2022
通过引入 CommFormer,将多个智能 Agent 之间的通讯架构视为可学习的图形,采用连续松弛和关注机制的方式,在协作任务上优化通讯图并通过梯度下降同时完善架构参数,证实了模型在不同合作场景下,无论 Agent 数量的变化,都能协调更好且更复杂的策略。
May, 2024
该研究提出了一种基于图卷积和多因素策略梯度的架构,用于解决在多观察环境下多智能体之间合作最大化系统功用时的通信和奖励分配问题,并在一系列任务中取得了优异表现。
Apr, 2020
本文提出了一种使用图卷积强化学习的方法,通过使用关系内核捕获代理之间的相互作用来适应多代理环境的动态,并利用逐渐增大感受野的卷积层产生潜在特征来学习合作,此外,为了保持一致性,还使用了时间关系正则化方法。实验表明,该方法在各种合作场景中显着优于现有方法。
Oct, 2018
本研究提出了一种协作多智能体强化学习的共识学习方法,通过基于本地观察的共识学习,在分散式执行期间将推断出来的共识明确地作为智能体网络的输入,从而发展他们的合作精神,并在若干完全合作任务上获得了令人信服的结果。
Jun, 2022