- POWQMIX:加权值分解与潜在最优联合行动识别的合作多智能体强化学习
通过引入 Potentially Optimal joint actions Weighted QMIX (POWQMIX) 算法,赋予潜在最优联合动作更高损失权重,我们能够在训练中恢复最优策略,并在矩阵游戏、捕食者 - 猎物和星际争霸 I - 通过局部集中执行减少多智能体协调中的冗余计算
通过引入局部集中式团队变换器 (LCTT) 方法,本研究解决了多智能体强化学习中的冗余计算问题,并提出了团队变换器架构 (T-Trans) 和领导权转换机制,实现了更加高效的学习收敛,同时无损于奖励水平。
- AgentMixer: 多智能体相关策略分解
通过引入策略修改,构建联合完全可观察策略的非线性组合,以实现分散执行,并联合训练联合策略和个体策略以确保一致性,理论上证明了该方法收敛到一个近似关联均衡,并在三个 MARL 基准上展示了强大的实验表现。
- 多智能体强化学习下的动态避障无人机路径规划
我们提出了一种基于多智能体强化学习的新颖集中训练与分散执行方法,用于在线解决动态避障问题。改进方法采用模型预测控制的思想提高智能体的训练效率和样本利用率,并通过模拟、室内和室外环境的实验结果验证了方法的有效性。
- 多智能体决策的屏蔽预训练
提出了一种基于 Transformer 架构的 MaskMA 预训练框架,通过分布式执行和部分观察的方式,同时解决了多智能体决策中分布式预训练和执行不匹配以及智能体数量和行动空间多样性的问题,实验结果显示 MaskMA 在多个任务上都表现出 - 多智能体强化学习用于分布式电动汽车充电协调与车对车能量交换
该研究论文提出了一种多智能体强化学习的方法,以协调具有车对车能量交换的电动车充电,并考虑了电动车用户体验和去中心化执行的能力。实验结果表明,该方法相比传统优化算法具有卓越的性能和可扩展性。
- 面向上下文的贝叶斯网络演员 - 评论者方法用于协作多智体强化学习
本研究提出了一种基于贝叶斯网络的多代理协作强化学习算法,建立了协作性马尔可夫博弈中多代理行动选择的依赖关系并证明了其全局收敛性和优越性,通过可微的有向无环图,实现了动态学习具有背景感知能力的贝叶斯网络策略,并在多个 MARL 基准测试中获得 - 集中式培训与分散式执行框架对于多智能体强化学习而言是否足够集中?
本文介绍了一种名为 CADP(Centralized Advising and Decentralized Pruning)的框架,解决了现有的 CTDE 框架无法充分利用全局信息的问题,在保证了各个智能体独立策略的同时,通过启用显式的通信 - 从显式通信到默示合作:一种新的协作多智能体强化学习范式
该研究提出了一种新的训练方法,该方法在训练初期通过共享信息和重构信息来促进智能体之间的合作,随着训练的进行,逐渐过渡到完全去中心化的执行模式,实验结果表明该方法的性能不逊于基于传统通信的方法。
- ICLR更集中化的训练,仍分散化的执行:多智能体条件策略分解
本研究探索了如何在协作多智能体强化学习中融合价值分解和演员 - 评论家,并提出了多智能体条件策略分解 (MACPF) 的方法,以更好地实现部分可观察环境下的学习。同时,通过在不同的合作 MARL 任务中进行实验证明 MACPF 相对于基线的 - 利用转化和蒸馏框架实现合作多智能体强化学习的全局最优
本文提出了一种名为 TAD 的框架用于解决多智能体强化学习中去中心化执行策略下的优化问题,并理论上证明了使用 devaluation descent 优化方法时多个流行的多智能体强化学习算法是次优的。使用该框架实施的 TAD-PPO 算法在 - 多智能体强化学习中带有反事实预测的助攻价值因子分解算法
本篇论文提出了 PAC 框架,其中包含基于 Assistive 信息和 Counterfactual Predictions 的新颖 counterfactual loss,此框架考虑到局部顺序对表征函数造成的约束并解决了该限制,同时采用基 - ICML合作多智能体强化学习中常见实践的重新审视
围绕合作多智能体强化学习,实现了依照价值分解及参数共用两大设计原则,其中心的 Q 函数通过局部化的 Q 网络在代理间共享参数。然而,我们证明在某些环境中,比如高度多模式的奖励环境下,价值分解以及参数共享会引起问题并导致不良结果。相反,个体策 - 合作多智体强化学习的共识学习
本研究提出了一种协作多智能体强化学习的共识学习方法,通过基于本地观察的共识学习,在分散式执行期间将推断出来的共识明确地作为智能体网络的输入,从而发展他们的合作精神,并在若干完全合作任务上获得了令人信服的结果。
- 不谈话的规划:抗通信丢失的多智能体系统
该论文针对协作多智能体系统中的通信问题,提出了一种分散执行联合策略算法,运用状态 - 行为过程的总相关度估计代表多智能体间内在依赖关系的指标,通过最大化一个该指标的代理量,合成了最小依赖联合策略,并在数值实验中验证其鲁棒性和高性能。
- AAAI评估多智能体强化学习在不同智能体数量下的泛化和转移能力
本研究采用集中式训练和分散式执行的范式来评估多智能体强化学习模型的推广和转移能力,结果表明通过使用更少的智能体进行训练可以获得类似或更高的评估性能。
- 均场多智体强化学习:一种分散网络方法
提出了基于 LTDE-Neural-AC 和演员 - 评论家方法的多智能体强化学习算法,应用于自驾车、拼车、数据和交通路由模型的图网络,其解决了分散式多智能体强化学习网络结构的问题,并具有收敛保证的优势。
- 利用中央化训练的近期多智能体强化学习算法调查
为了实现人类般的协作,大量工作致力于探索实现集中式学习与分散式执行 (CLDE) 方法的多智能体强化学习 (MARL) 范式。在这里,我们讨论了集中式训练的变化,并描述了最近算法方法的调查。探讨不同的信息共享机制的中心化学习系统的实现如何在 - ICLRRMIX:合作强化学习代理的风险敏感策略学习
本研究提出了一种名为 RMIX 的协作多智能体强化学习算法,使用条件风险价值(CVaR)测量个体 Q 值的学习分布,优化 CVaR 策略,并通过分位回归损失将 CVaR 值用作辅助本地奖励更新本地分布,提高了 StarCraft II 任务 - 多智能体强化学习中集中式与分散式评论员的对比
本论文分析了中央化和去中央化的评分员方法,旨在提供评分员选择的更深层次理解并阐述算法设计者应考虑到评分员方法的优缺点。