关键词cooperative multi-agent reinforcement learning
搜索结果 - 47
- CuDA2: 将叛徒代理纳入合作多智能体系统的一种方法
对于合作多智能体强化学习(CMARL)策略容易受到对抗性干扰的问题,研究者们引入了一种名为 Traitor Markov Decision Process(TMDP)的模型作为现实场景下更真实的对抗性攻击方法。为了提高攻击效率,研究者们还提 - 合作强化学习中功率规范化的好处
协作多智能体强化学习算法 (MARL) 通过训练来优化任务奖励,但可能导致权力的集中,一位智能体的失败或敌对意图可能摧毁系统中每个智能体的奖励。本文提出了一种明确约束权力集中的方法,以确保没有人成为单点故障,通过定义一种实用的权力配对度量, - IJCAI多智能体强化学习的群体感知协调图
我们提出了一种新的方法来推断组感知协作图(GACG),以捕捉基于当前观测到的代理之间的合作以及跨轨迹观察到的行为模式的组水平依赖关系,并在决策过程中使用该图进行信息交换。通过在 StarCraft II 微管理任务上进行评估,我们证明了 G - 合作多智体强化学习中的随机探索
我们提出了第一个关于合作多智能体强化学习(MARL)中可证明效率的随机探索的研究,提出了一种统一的随机探索算法框架,以及两种基于 Thompson Sampling(TS)的算法。我们在多个并行强化学习环境中评估了我们的方法,包括深度探索问 - MARL-LNS:基于大型邻域搜索的合作多智能体强化学习
合作多智能体强化学习是一个在过去五年中越来越重要的研究主题,因其在现实世界中的巨大应用潜力。本文提出了一个通用的训练框架 MARL-LNS,通过在交替的智能体子集上进行训练,并使用现有的深度 MARL 算法作为底层训练器来解决维度灾难的问题 - 多智能体强化学习中推断潜在时间稀疏协调图
在合作多智能体强化学习中,有效的智能体协调至关重要。为了解决现有方法中对历史经验的忽视和稠密图计算的可扩展性问题,我们提出了一种基于潜在时间稀疏协调图的多智能体强化学习方法。该方法利用智能体的历史观测计算智能体对概率矩阵,并基于此矩阵生成稀 - 多智能体强化学习与奖励机器的层次
本文研究利用奖励机器(RMs)来指定奖励函数,从而利用任务中高级事件的先前知识来促进学习效率的合作多智能体强化学习(MARL)问题。我们提出了具有层次结构的高级事件的多智能体强化学习(MAHRM),能够应对多智能体之间事件可以并发发生且代理 - 合作多智能体增强学习中的共识达成与目标想象
多智能体协调中,达成共识是关键。本文提出一种基于模型的共识机制,通过想象出一个共同目标来引导多智能体达成共识,进而引导他们合作地达到有价值的未来状态。
- ICLR合作多智能体强化学习的高效情节记忆利用
通过引入有效的情节记忆利用(EMU)来加速协同多智能体强化学习(MARL),为了减少学习时间并防止局部最优解,EMU 包括一个可训练的编码器 / 解码器结构和一种基于状态可取性的新奖励结构,理论支持和实证结果表明 EMU 相比传统的情节控制 - 完全去中心化的合作多智能体强化学习:调查
该论文系统地回顾了两种全面分散设置下的全面分散方法,即最大化所有代理的共享奖励和最大化所有代理的个人奖励之和,并讨论了未来研究方向。
- AAAI针对合作多智能体强化学习中理解训练行为的诊断
合作多智能体强化学习对分布式决策挑战取得了显著进展,但随着多智能体系统的复杂性增加,对其行为的全面理解变得越来越困难。本文探讨了可解释人工智能(XAI)工具在深入理解智能体行为方面的应用。我们将这些诊断工具应用于基于等级的觅食和多机器人仓库 - AAAI高效量化合作 MARL 中个体代理的重要性
合作多智能体强化学习中个体代理的贡献度一直是一项具有挑战性的任务,而本文提出的 Agent Importance 方法通过计算个体代理的贡献度,其计算复杂度相对于代理数量呈线性增长,能够有效代替耗时的 Shapley values 方法。实 - 隐私工程化价值分解网络用于合作多智体强化学习
在合作多智能体强化学习(Co-MARL)中,我们提出了一种隐私工程化的价值分解网络(PE-VDN)算法来建模多智能体间的协作且可确保各智能体的环境交互数据的机密性,通过整合分布式计算方案、隐私保护的多方计算协议和差分隐私技术,PE-VDN - 合作智能体的政策多样性
标准的多智能体强化学习方法旨在找到完成任务的最优团队合作策略。然而,在不同的合作方式中可能存在多种选择,这往往极大地增加了领域专家的任务复杂性。因此,我们提出了一种名为 Moment-Matching Policy Diversity 的方 - 用多智 - Agent 强化学习从零开始学习网络防御策略
深度学习技术的最新进展为自主网络防御的设计提供了新的可能性,智能代理团队在计算机网络防御角色中可能揭示了保护网络和运动资产的有希望的途径,该研究对比了基于价值的独立学习和集中训练去中心化执行的合作多代理强化学习方法,表明这两种方法都优于简单 - ${m E}(3)$-Equivariant Actor-Critic 合作多智能体强化学习方法
本文重点研究了自然界中对称模式的识别和分析,在物理学中导致了引力定律的制定和化学结构研究的进展。我们着眼于利用某些协同多智能体强化学习问题中固有的欧几里得对称性,该问题在许多应用中普遍存在。我们首先形式化地表征了一类具有对称最优值和策略存在 - 走向小样本协同:重新审视《汉尼拔》游戏中的即兴团队配合挑战
合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏 Hanabi 的框架,在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性,并发现在大多数情况下,顺序独立强化学习代理(IQL)与最新 - 多智能体环境中高效协作的因果关系发现
本研究探讨了因果关系在多智能体强化学习中的应用,证明了因果关系估计可以用于改善智能体的学习并用 Amortized Causal Discovery 自动检测和惩罚懒惰的智能体,从而提高了团队的整体表现和个体能力。
- 结构化状态抽象协作多智能体导航学习
本研究提出了一个神经网络架构,旨在共同学习多个代理参与导航任务中的自适应状态空间抽象和通信协议,从而有效减少探索的状态空间的大小,并达到更好的政策性能。
- 面向上下文的贝叶斯网络演员 - 评论者方法用于协作多智体强化学习
本研究提出了一种基于贝叶斯网络的多代理协作强化学习算法,建立了协作性马尔可夫博弈中多代理行动选择的依赖关系并证明了其全局收敛性和优越性,通过可微的有向无环图,实现了动态学习具有背景感知能力的贝叶斯网络策略,并在多个 MARL 基准测试中获得