- MM基于注意机制的多智能体强化学习在 LoRa 网络中提高能效
基于多智能体强化学习的传输参数分配算法(MALoRa)用于最大化 LoRa 网络的系统能效,显著提高系统能效,并在包传递率方面接受可接受的降低。
- BRNES:多体机器人和自主系统中的安全与隐私感知式体验共享
我们提出了一种新颖的多智能体强化学习(MARL)框架(BRNES),通过启发式地为每个受劝者选择动态邻居区域,采用加权的经验聚合技术来减少拜占庭攻击的影响,此外,在 ES 过程中通过本地差分隐私(LDP)导致的噪声保护代理的私人信息,我们的 - 在博弈论强化学习中,结合树搜索、生成模型和纳什谈判概念
本文介绍了一种增强型多智能体系统训练框架 PSRO(Policy-Space Response Oracles),并通过添加一种新颖的搜索程序和生成抽样方法进行增强,进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行 - 基于合作图的多智能体稀疏奖励强化学习方法
本文提出了一种基于 Cooperation Graph 结构的 Multiagent Reinforcement Learning(CG-MARL)算法,通过设计一个网络结构来有效处理多智能体领域中的稀疏奖励问题,并在实验中展示出全面领先的 - 解决多智能体状态空间维度诅咒的方法:一种统一的个体置换框架
该研究提出了一种基于排列不变性和排列等变性思想的多智能体强化学习框架,它包括动态排列网络和超策略网络等实现方式,实验证明这种方法能够显著提高已有多智能体强化学习算法的性能和学习效率,并在 SMAC 等环境中实现了前所未有的 100% 胜率。
- ICLR多智能体强化学习中影响长期行为
本文提出了一个基于 farsighted objective 的新优化目标以及一种新的多智能体强化学习方法,实现了优于现有基线结果的长期性能。
- AAAIPantheonRL:用于动态训练交互的多智能体强化学习库
介绍了 PantheonRL,一款多智能体强化学习软件软件包,支持 Round-robin,适应性和临时训练等动态训练交互方式,基于 StableBaselines3 构建,可直接使用功能强大的深度强化学习算法,在网络用户界面中进行配置。
- V-Learning -- 多智能体强化学习的简单高效去中心化算法
使用新类别的分散式算法 - V-learning 解决了多智能体强化学习中联合行动空间指数级增长的问题,在有限态和操作情况下,能够学习 Nash 均衡、相关均衡和粗略相关均衡。
- ICML多智能体强化学习中的学习学习策略梯度算法
本研究提出了一种新的元多智能体策略梯度定理,该定理直接考虑到多智能体学习环境中固有的非稳态策略动态,并通过建模梯度更新以考虑智能体自身的非稳态策略动态以及环境中其他代理的非稳态策略动态来达成。在多种多智能体基准测试中,我们的方法能够在全谱的 - 用于部分可观察环境和有限通信的 R-MADDPG
本文介绍了一种使用深度循环多智能体演员 - 评论家框架(R-MADDPG)处理部分可观测设置和有限通信下多智能体协调的方法,并探究了循环效应对团队智能体表现和通信使用的影响。研究结果表明,该框架可以学习随时间变化的依赖关系,处理资源限制,并 - 用于深度多智能体强化学习的 Q 值路径分解
本论文提出一种名为 Q-value Path Decomposition(QPD)的方法,该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解,以便为代理分配信用,解决了多智能体信用分配的关键挑战,该方法在 StarCr - 通过对抗性集成强化学习在非对称不完美信息游戏中实现强大的对手建模
本文提出了一种算法框架,用于在不完美信息的非对称博弈中学习鲁棒策略,并通过对手建模来推断对手类型,使用多智能体强化学习技术通过自我博弈学习对手模型,并使用集成训练方法来提高策略的稳健性,借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂 - 重新思考部分可观测多智体决策的形式模型
介绍了一种基于事实观测随机博弈(FOSG)建模的解决方案,该解决方案的优势在于可以轻松分解问题,且与博弈树等其他建模方式相关联,这为多智能体决策制定提供了启示。
- 多智能体强化学习中的策略蒸馏与价值匹配
本文提出了一种多智能体 Actor-Critic 算法,通过分解多智能体问题以及知识蒸馏和价值匹配等方法,使智能体之间能够共享信息并解决维度灾难问题,进而在离散和连续动作空间中实现更好的性能。
- 深度多智能体强化学习在顺序囚徒困境合作中的应用
通过提出一种序列囚徒困境游戏和使用深度多智能体强化学习方法进行研究,本文探讨互相合作演化趋势。实验表明,该策略可避免被攻击并与合作的对手实现合作。
- NIPS多智能体强化学习的统一博弈论方法
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
- 具有非线性动力学的多智能体强化学习算法
使用加权策略学习器(Weighted Policy Learner)算法,基于本地奖励的反馈,实现了多智能体强化学习(MARL)算法在二人二选手博弈中寻找 Nash Equilibrium 的能力。与之前的算法相比,WPL 不需要观察其他智