基于蒸馏执行的个性化多智体强化学习训练

Oct, 2022

基于蒸馏执行的个性化多智体强化学习训练

PTDE: Personalized Training with Distillated Execution for Multi-Agent Reinforcement Learning

Yiqun Chen, Hangyu Mao, Tianle Zhang, Shiguang Wu, Bin Zhang...

TL;DR本文提出了一种新的多智能体强化学习范式 (PTDE) ，通过对全局信息进行个性化设置，将个体的全局信息提炼成本地信息，用于分权执行，实现更好的性能，其可与现有的算法结合使用，提高性能。

Abstract

Centralized Training with Decentralized Execution (ctde) has been a very popular paradigm for multi-agent reinforcement learning. One of its main features is making full use of the →

multi-agent reinforcement learning ctde q-function global information ptde

发现论文，激发创造

集中式培训与分散式执行框架对于多智能体强化学习而言是否足够集中？

本文介绍了一种名为 CADP（Centralized Advising and Decentralized Pruning）的框架，解决了现有的 CTDE 框架无法充分利用全局信息的问题，在保证了各个智能体独立策略的同时，通过启用显式的通信渠道，实现了智能体之间的有效信息交流与更加集中的训练，最终在 StarCraft II 和 Google Research Football 等基准测试中取得了优秀的性能表现。

May, 2023

AgentMixer: 多智能体相关策略分解

通过引入策略修改，构建联合完全可观察策略的非线性组合，以实现分散执行，并联合训练联合策略和个体策略以确保一致性，理论上证明了该方法收敛到一个近似关联均衡，并在三个 MARL 基准上展示了强大的实验表现。

Jan, 2024

分散协作多智能体强化学习的部分调查

多智能体强化学习在最近几年变得非常流行。有许多方法可以将其分为三种主要类型：中心化训练和执行（CTE）、中心化训练分布式执行（CTDE）和分散化训练和执行（DTE）。该论文探讨了这些方法及其应用于合作型多智能体强化学习的相关问题。

May, 2024

Dueling 网络中央化状态值用于多机器人强化学习无地图导航

研究了多机器人地图无信息导航问题，并提出了一种新的体系结构，使用集中式状态值网络来计算联合状态值，以注入全球状态信息，从而提高样本效率并同时提供每个机器人有关全球状态的信息，实验证实了该方法的优越性。

Dec, 2021

利用转化和蒸馏框架实现合作多智能体强化学习的全局最优

本文提出了一种名为 TAD 的框架用于解决多智能体强化学习中去中心化执行策略下的优化问题，并理论上证明了使用 devaluation descent 优化方法时多个流行的多智能体强化学习算法是次优的。使用该框架实施的 TAD-PPO 算法在一系列合作多智能体任务中，相对于基于 PPO 算法的算法具有显著的优越性能。

Jul, 2022

从显式通信到默示合作：一种新的协作多智能体强化学习范式

该研究提出了一种新的训练方法，该方法在训练初期通过共享信息和重构信息来促进智能体之间的合作，随着训练的进行，逐渐过渡到完全去中心化的执行模式，实验结果表明该方法的性能不逊于基于传统通信的方法。

Apr, 2023

多智能体特征行列式 Q 学习

本文提出一种基于 Q-DPP 的多智能体 Q 学习方法，用于解决分布式合作任务中的中心化训练和分散执行，消除了限制性假设，并通过采样投影采样器在各种合作基准测试中证明了算法的有效性。

Jun, 2020

用于深度多智能体强化学习的 Q 值路径分解

本论文提出一种名为 Q-value Path Decomposition（QPD）的方法，该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解，以便为代理分配信用，解决了多智能体信用分配的关键挑战，该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。

Feb, 2020

去中心化强化学习：通过本地经济交易进行全局决策制定

该研究旨在建立一个框架，以引导一群简单、专业、自我利益代理人解决传统上作为整体单一代理人序列决策问题的难题，并通过设计一种学习环境机制，使每个代理人的最优解与 Nash 平衡策略一致，并为其推导出了一类分散式强化学习算法，同时展示了该社群内在结构对于更高效的迁移学习可能带来的潜在优势。

Jul, 2020

基于集中训练和分散执行的多智能体深度强化学习在交通基础设施管理中的应用

我们提出了一个多智能体深度强化学习框架，用于管理大型交通基础设施系统的全生命周期。该框架通过约束的部分可观测马尔可夫决策过程，解决了在存在不确定性、风险考量和有限资源的情况下，对交通基础设施进行优化管理的问题。通过开发一种名为 DDMAC-CTDE 的 Deep Decentralized Multi-agent Actor-Critic 方法，该框架在美国弗吉尼亚州的一个具有代表性和现实性的交通网络应用中展示了优越的性能。与传统的管理策略相比，该方法在真实约束和复杂性下提供了近乎最优的解决方案。

Jan, 2024