高效深度多智能体强化学习的表示学习

Jun, 2024

高效深度多智能体强化学习的表示学习

Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning

Dom Huh, Prasant Mohapatra

TL;DR通过辅助学习目标，MAPO-LSO 在多智能体强化学习中通过学习有意义的潜在表示空间来提高样本效率，并展示出在各种多智能体强化学习任务中相比普通的多智能体强化学习模型有显著的学习性能和样本效率的改进。

Abstract

sample efficiency remains a key challenge in multi-agent reinforcement learning (MARL). A promising approach is to learn a meaningful latent representation space through auxiliary learning objectives alongside the MARL objective to aid in learning a successful →

sample efficiency multi-agent reinforcement learning mapo-lso latent representation control policy

发现论文，激发创造

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

简化基于模型的强化学习：使用单一目标学习表示、潜空间模型和策略

本研究提出了一种单一目标的方法，该方法同时优化隐空间模型和策略以实现高回报并保持自一致性，从而在提高样本效率的同时实现更好的强化学习效果。

Sep, 2022

高效的多智能体强化学习规划

多智能体强化学习算法（MARL）通过采取模型化方法来提高样本效率并在多个任务中表现出可比或更好的性能。

May, 2024

多智能体强化学习中的合作学习

本文研究了网络多智能体强化学习（MARL）问题，提出了一种分层分散式 MarL 框架：LToS，它使代理者能够动态地与邻居共享奖励，从而通过集体鼓励代理者在全局目标上进行合作。实证结果表明 LToS 在社会困境和网络 MARL 的情景下都优于现有方法。

Dec, 2021

高效的样本有效的多智能体强化学习：优化视角

我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量，即多智能体解耦系数 (MADC)，我们旨在找到基于样本高效学习的最小假设。利用该度量，我们提出了首个统一的算法框架，可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外，我们还展示了与现有工作相比，我们的算法提供了可比较的次线性遗憾。此外，我们的算法结合了一个均衡求解器和一个单一目标优化次程序，用于求解每个确定性联合策略的正则化收益，从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023)，或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程，因此更适合于实证实现。

Oct, 2023

多智能体信任区域策略优化

该研究将信任区域策略优化（TRPO）扩展到多智能体强化学习（MARL）问题，提出了一种基于分布式共识优化问题的去中心化 MARL 算法 MATRPO，该算法能够基于本地观察和私人奖励优化分布式策略，实现完全的去中心化和保护隐私。实验表明，MATRPO 在复杂的 MARL 任务中表现出了强韧的性能。

Oct, 2020

多智能体强化学习在多小区大规模 MIMO 系统中的能源节约

我们开发了一种多智能体强化学习算法，通过对多个大规模 MIMO 基站的多级高级休眠模式和天线切换进行决策，以最小化多个多基站多小区网络的总能耗，同时保持整体服务质量。该问题被建模为分散式部分可观察马尔可夫决策过程 (DEC-POMDP)，以实现个别基站之间的协作，以解决小区间的干扰。设计了一种多智能体近端策略优化 (MAPPO) 算法来学习一个协作基站控制策略。为了增强可扩展性，进一步提出了 MAPPO - 邻近策略的改进版本。仿真结果表明，训练得到的 MAPPO 智能体相比基准策略取得更好的性能。具体而言，与自动休眠模式 1 (符号级睡眠) 算法相比，MAPPO - 邻近策略在低流量小时内减少了约 8.7% 的功耗，在高流量小时内提高了约 19% 的能源效率。

Feb, 2024

多智能体强化学习中的策略蒸馏与价值匹配

本文提出了一种多智能体 Actor-Critic 算法，通过分解多智能体问题以及知识蒸馏和价值匹配等方法，使智能体之间能够共享信息并解决维度灾难问题，进而在离散和连续动作空间中实现更好的性能。

Mar, 2019

MAC-PO: 基于集体优先级优化的多智能体经验回放

通过优化采样权重，将优先经验回放应用于多智能体强化学习 (MARL) 中，以最小化策略遗憾并获得更好的优先级方案，提高训练效率并在实验中表现出良好的效果。

Feb, 2023

超越联合演示：高效多智能体强化学习的个性化专家指导

在多智能体强化学习中，引入个性化专家演示，为每个个体智能体或团队中的每个个体智能体类型定制，以实现合作任务，并展示其在离散和连续环境中的性能优于现有算法。

Mar, 2024