基于蒸馏执行的个性化多智体强化学习训练
本文介绍了一种名为 CADP(Centralized Advising and Decentralized Pruning)的框架,解决了现有的 CTDE 框架无法充分利用全局信息的问题,在保证了各个智能体独立策略的同时,通过启用显式的通信渠道,实现了智能体之间的有效信息交流与更加集中的训练,最终在 StarCraft II 和 Google Research Football 等基准测试中取得了优秀的性能表现。
May, 2023
通过引入策略修改,构建联合完全可观察策略的非线性组合,以实现分散执行,并联合训练联合策略和个体策略以确保一致性,理论上证明了该方法收敛到一个近似关联均衡,并在三个 MARL 基准上展示了强大的实验表现。
Jan, 2024
多智能体强化学习在最近几年变得非常流行。有许多方法可以将其分为三种主要类型:中心化训练和执行(CTE)、中心化训练分布式执行(CTDE)和分散化训练和执行(DTE)。该论文探讨了这些方法及其应用于合作型多智能体强化学习的相关问题。
May, 2024
研究了多机器人地图无信息导航问题,并提出了一种新的体系结构,使用集中式状态值网络来计算联合状态值,以注入全球状态信息,从而提高样本效率并同时提供每个机器人有关全球状态的信息,实验证实了该方法的优越性。
Dec, 2021
本文提出了一种名为 TAD 的框架用于解决多智能体强化学习中去中心化执行策略下的优化问题,并理论上证明了使用 devaluation descent 优化方法时多个流行的多智能体强化学习算法是次优的。使用该框架实施的 TAD-PPO 算法在一系列合作多智能体任务中,相对于基于 PPO 算法的算法具有显著的优越性能。
Jul, 2022
该研究提出了一种新的训练方法,该方法在训练初期通过共享信息和重构信息来促进智能体之间的合作,随着训练的进行,逐渐过渡到完全去中心化的执行模式,实验结果表明该方法的性能不逊于基于传统通信的方法。
Apr, 2023
本文提出一种基于 Q-DPP 的多智能体 Q 学习方法,用于解决分布式合作任务中的中心化训练和分散执行,消除了限制性假设,并通过采样投影采样器在各种合作基准测试中证明了算法的有效性。
Jun, 2020
本论文提出一种名为 Q-value Path Decomposition(QPD)的方法,该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解,以便为代理分配信用,解决了多智能体信用分配的关键挑战,该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。
Feb, 2020
该研究旨在建立一个框架,以引导一群简单、专业、自我利益代理人解决传统上作为整体单一代理人序列决策问题的难题,并通过设计一种学习环境机制,使每个代理人的最优解与 Nash 平衡策略一致,并为其推导出了一类分散式强化学习算法,同时展示了该社群内在结构对于更高效的迁移学习可能带来的潜在优势。
Jul, 2020
我们提出了一个多智能体深度强化学习框架,用于管理大型交通基础设施系统的全生命周期。该框架通过约束的部分可观测马尔可夫决策过程,解决了在存在不确定性、风险考量和有限资源的情况下,对交通基础设施进行优化管理的问题。通过开发一种名为 DDMAC-CTDE 的 Deep Decentralized Multi-agent Actor-Critic 方法,该框架在美国弗吉尼亚州的一个具有代表性和现实性的交通网络应用中展示了优越的性能。与传统的管理策略相比,该方法在真实约束和复杂性下提供了近乎最优的解决方案。
Jan, 2024