多智能体团队学习的更深层理解
本文提出了一种基于组织心理学和早期人工智能团队工作的新型强化学习智能体多智能体团队模型,验证结果表明,尽管有不合作的动机,代理分成团队后仍然能发展出合作的政策,能在团队内更好地协调和学习相应角色,并比所有代理利益一致时获得更高的回报。
May, 2022
我们提出了一个基于角色的多智能体强化学习框架,该框架使用角色分配网络将学习代理分配到团队中,以适应不同的团队大小,并通过 StarCraft II 模拟来展示该方法的有效性。
Apr, 2022
本文提出了一种基于任务表示的团队适应方法,通过学习任务之间的共同结构,使得团队可以在少量的源任务学习之后将协作知识传递到新任务上。我们发现微调转移策略有助于解决那些从头开始难以学习的任务。
Mar, 2022
DeepMind 的 “博弈论与多智能体团队” 研究了多智能体学习的多个方面,旨在使用深度强化学习探索复杂环境下的多智能体系统,并使用这些基准来推进我们的理解;本文总结了他们最近的工作并提出了一项分类,突显了多智能体研究中许多重要的开放性挑战。
Sep, 2022
研究了多智能体策略在混合合作 - 竞争环境下的学习问题,提出使用图神经网络和强化学习联合训练的方法,并可以将其应用在异构多智能体行为的研究中。最终,提出了集合训练的算法,将对手 Agent 的策略融合到训练中,以提高团队的整体表现。
Jul, 2020
通过引入具有连续模拟物理的具有挑战性的竞争性多智能体足球环境,我们研究了加强学习智能体中合作行为的出现。我们演示了分散、基于人口的联合训练能够导致代理行为的进步:从随机的行为到简单的球追逐,最终呈现出合作的迹象。我们进一步应用了一个由博弈论原理支持的评估方案,可以在没有预定义评估任务或人类基准的情况下评估代理的性能。
Feb, 2019
本文提出了一种新的算法,名为 Learning to Coordinate and Teach Reinforcement(LeCTR),通过在协作多智能体强化学习中使每个代理都学习何时提供何种建议,从而改善整个团队性能和学习效果。实证比较表明,我们的教学代理不仅学习速度更快,而且在现有方法失败的任务中也学会了协作。
May, 2018