作为终身学习现实场景的持续协调

ICMLMar, 2021

作为终身学习现实场景的持续协调

Continuous Coordination As a Realistic Scenario for Lifelong Learning

Hadi Nekoei, Akilesh Badrinaaraayanan, Aaron Courville, Sarath Chandar

TL;DR本研究提出了一个基于 Hanabi 的多智能体生涯学习测试平台，研究了最新的多智能体强化学习算法，对限制的内存和计算权衡性能以及对超量训练预测的影响，证明了我们的代理可以在没有任何其他假设的情况下良好地与未见代理协调。

Abstract

Current deep reinforcement learning (RL) algorithms are still highly task-specific and lack the ability to generalize to new environments. Lifelong learning (LLL), however, aims at solving multiple tasks sequentially by efficiently transferring and using knowledge between tasks. Despite a surge of interest in lifelong RL in recent years, the lack of a realis

lifelong learning multi-agent reinforcement learning continual learning zero-shot coordination hanabi

发现论文，激发创造

实时策略游戏综合终身强化学习智能体系统设计

本文介绍了 L2RLCF 框架以及通过 Starcraft-2 小游戏实现不同组件的整合，从而实现连续学习的能力并进行全面客观的比较。

Dec, 2022

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

基于 LLM 的多智能体强化学习：当前和未来方向

近年来，大型语言模型在问题回答、算术问题解决和诗歌创作等各种任务中展示了强大的能力。尽管关于以大型语言模型为代理的研究表明它可以应用于强化学习并取得不错的结果，但将基于大型语言模型的强化学习扩展到多智能体系统并不容易，因为许多方面，如智能体之间的协调和通信，在单智能体的强化学习框架中没有得到考虑。为了激发更多关于基于大型语言模型的多智能体强化学习的研究，本文调查了现有的基于大型语言模型的单智能体和多智能体强化学习框架，并提供了未来研究的潜在方向。特别关注多智能体共同目标合作任务和它们之间的通信，还考虑了语言组件在框架中实现的人机交互场景。

May, 2024

从多智能体到多机器人：一款可扩展的多机器人强化学习训练和评估平台

本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART，该平台包含了一个仿真环境和一个真实的多机器人系统，以提供多样化的交互场景进行训练，并支持基于插件的算法实现。在此基础上，我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题，并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型，以推动和强化多机器人强化学习的研究。

Jun, 2022

MARL-LNS：基于大型邻域搜索的合作多智能体强化学习

合作多智能体强化学习是一个在过去五年中越来越重要的研究主题，因其在现实世界中的巨大应用潜力。本文提出了一个通用的训练框架 MARL-LNS，通过在交替的智能体子集上进行训练，并使用现有的深度 MARL 算法作为底层训练器来解决维度灾难的问题，而不需要额外的参数进行训练。基于该框架，我们提供了三种算法变种：随机大邻域搜索（RLNS），批量大邻域搜索（BLNS）和自适应大邻域搜索（ALNS），这些算法以不同的方式交替使用智能体子集。我们在 StarCraft Multi-Agent Challenge 和 Google Research Football 上测试了我们的算法，并证明我们的算法可以自动减少至少 10％的训练时间，同时达到与原始算法相同的最终技能水平。

Apr, 2024

具有动态参与智能体的可转移的多智能体强化学习

本研究提出一种具有 Few-shot Learning 算法的网络架构，允许在集中式训练期间代理的数量变化，这可以使新代理的模型适应速度比基线模型快 100 多倍。

Aug, 2022

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

网络代理的去中心化多智能体强化学习：最新进展

本文回顾了多智能体强化学习的一个分支领域 —— 网络化智能体下的去中心化多智能体强化学习。该领域的研究主要集中在多个代理在公共环境中执行顺序决策，而无需任何中央控制器的协调。代理可以通过通信网络与其邻居交换信息。此设置在机器人，无人驾驶车辆，移动传感器网络和智能电网的控制和操作中具有广泛应用。

Dec, 2019

基于逐步任务情境化的多智能体持续协调

本文提出了一种名为 MACPro 的方法，通过采用分解的策略来实现多智能体不断协调的能力，支持多类任务进行更好地管理和学习，并且在多项多智能体基准测试中表现出近乎最优的性能。

May, 2023

共享知识生命周期学习的轻量级学习器

该研究介绍了一种名为 SKILL (Shared Knowledge Lifelong Learning) 的挑战，它采用了一种去中心化的人工智能智能体种群，每个智能体都被分配了不同的任务，在学习其各自任务后，代理人使用分散的通信网络共享并巩固其知识，以便最终所有代理人都可以掌握所有任务。

May, 2023