multi-agent rl | BriefGPT - AI 论文速递

关键词multi-agent rl

搜索结果 - 24

分散的变压器与集中的聚合是高效的多智能体世界模型
为了解决多智能体强化学习中的可扩展性和非稳态性问题，我们提出了一种新的多智能体世界模型，通过学习分散的局部动力学来实现可扩展性，并通过中心化表示的聚合来解决非稳态性问题。我们引入了 Perceiver Transformer 作为一种有效的
PDF12 days ago
ICMLFightLadder：竞争多智能体强化学习的基准
这项研究提出了一种基于实时格斗游戏平台的竞技多智能体强化学习（MARL）研究，在此平台上提供了先进的 MARL 算法实施以及一套评估指标，以解决竞争性环境中的关键挑战，旨在促进该领域的新发现和进展。
PDFa month ago
使用多智能体强化学习的多样化合作行为和对抗样本采样增强辅助任务中的策略
通过深度强化学习，本研究提出了一个框架，可以为不同的护理接收者的回应训练一个稳健的护理者策略，并通过对抗性训练样本的采样策略来提高护理者策略的稳健性。
PDF4 months ago
竞技游戏离线虚构自我对弈
该研究介绍了 Off-FSP，这是第一个面向竞技游戏的实用无模型离线 RL 算法。通过调整固定数据集的权重以重要性采样的方式与各种对手进行模拟交互，学习最佳响应以及应用离线自我对弈学习框架，并进一步实现虚构自我对弈 (FSP) 以近似纳什均
PDF4 months ago
AlberDICE: 通过交替稳定分布校正估计解决离线多智能体强化学习中的分布外联合动作
AlberDICE 是一种离线多智能体强化学习算法，通过交替进行集中培训和避免选择分布超出参考数据的联合行动，有效地解决了离线多智能体强化学习中的分布偏移问题。
PDF8 months ago
自我确认变压器：多智能体强化学习中本地一致的在线适应
离线强化学习中，通过自我确认损失来解决在线非稳态对手对于离线转换器策略的影响问题，并证明该策略能够适应非稳态对手在线，并获得比传统转换器和离线多智能体强化学习基准更高的收益。
PDF9 months ago
离线多智能体强化学习中的隐式全局局部价值规范化
OMIGA 是一种新的离线多智能体强化学习算法，具有隐式的全局到局部值正则化，能够在实例学习中同时实现多智能体值分解和离线正则化的策略学习，通过在离线多智能体任务中的全面实验表明，OMIGA 在几乎所有任务中表现优于最先进的离线多智能体强化
PDFa year ago
学习分散的部分可观测均场控制以实现人工集体行为
该研究论文介绍了一种解决集体行为任务的多智能体增强学习算法，该算法使用平均场控制 (MFC)，并采用一种去中心化的、部分可观测的 MFC 模型。使用新的去中心化部分可观测 MFC (Dec-POMFC) 模型，该算法在代表性的集体行为任务上
PDFa year ago
KDD学习多智能体意图感知通信以实现金融业务的最佳多级执行
在这篇论文中，我们介绍了一种多智能体强化学习方法来同时执行多个交易订单，并通过可学习的多轮通信协议改善合作效果。通过使用模型无关的强化学习方法，我们提供了一种解决交易执行问题的数据驱动方法。实验证明，我们的方法在两个真实市场的数据上表现出优
PDFa year ago
对比学习用于学习通信
本文提出了通过对比学习优化多个 agent RL 中的通信策略，并在必要的任务环境中实现了更正确，更快速的通信和更全局的状态信息的提取。
PDFa year ago
稀疏可观测环境下的多智能体强化学习对抗搜索和跟踪
本研究探讨了一个搜索和跟踪问题，使用多智能体增强学习架构，从先前的知识和运动模型中平衡信息，克服了数据分布的变化，并获得了比基准方法高 46％的检测率。
PDFa year ago
重新思考敌对政策：多智能体 RL 中的广义攻击公式与可证明防御
本文研究在强化学习的多智能体环境中，攻击者通过对受害者智能体进行对抗性的过程来实施攻击，并提出了一种更一般化的攻击模型，通过攻击预算来实现对智能体的控制，可产生能够利用受害者智能体的隐蔽性对抗策略，同时提供了首个提供收敛证明的保护方案，以对
PDFa year ago
关于智能交通系统环境下多智能体深度确定性策略梯度及其可解释性探究
本文主要研究 Autonomous Driving 中 Multi-Agent RL 或 MARL 的问题，提出了基于 on-policy 和 off-policy RL 方法的 MAPPO 和 MADDPG 方法，并结合 SMARTS 环
PDFa year ago
多智能体强化学习用于微处理器设计空间探索
本文提出了使用 Multi-Agent RL 来应对硬件体系结构搜索中领域特定定制的挑战，此方法相对于单一智能体，其可扩展性更高且运行更高效。该方法已在设计领域特定 DRAM 内存控制器上得到验证，并表现出在低功耗和延迟等不同目标方面显著优
PDF2 years ago
深度多智能体强化学习中的斯塔克伯格均衡：神谕和追随者
本研究提出了一种将 Stackelberg 平衡搜索实现为多智能体强化学习问题的通用框架，并借助多任务和元强化学习技术实现了一种使用情境策略的方法，在标准和新颖的基准领域上进行了实验，并显示出较以前的方法大大提高的样本效率。同时，我们探讨了
PDF2 years ago
对称团队学习中，局部最优解是全局 Nash 均衡
对于对称策略空间中的本地最优对称策略，该研究证明任何局部最优对称策略都是（全局）纳什均衡，这个结果适用于机器学习，并为找到对称策略空间中的局部最优的梯度方法提供全局性保证，最后，总结了研究结果在多智能体 RL，合作逆 RL 和分散式 POM
PDF2 years ago
PowerGridworld: 电力系统中多智能体强化学习框架
本研究介绍了 PowerGridworld 软件包，它是一个轻量级、模块化、可定制的框架，用于创建面向电力系统的多智能体 Gym 环境，并可与现有的强化学习训练框架集成。通过两个案例研究，证明了 PowerGridworld 可以快速实现多
PDF3 years ago
分布式多智能体强化学习研究框架 Mava
本文介绍了一种名为 Mava 的研究框架，它专门为构建可扩展的多智能体 RL 系统而设计。Mava 提供了有用的组件，抽象层，实用工具和通信模块，使得相应算法更容易复现和扩展，并且具备高度的灵活性和可组合性，同时实现具有良好扩展性的系统培训
PDF3 years ago
Exploiter 的威力：在大状态空间下可证明的多智能体强化学习
本文提出了一个新算法，能够有效地应用于大量状态空间问题中的多智能体强化学习，以寻找具有低复杂度的多代理贝尔曼 - 伊鲁德维度的零和马尔科夫博弈 Nash 平衡策略。
PDF3 years ago
MM基于模型的多智能体强化学习在零和 Markov 博弈中的近似最优样本复杂度
本文探究了基于模型的强化学习算法在多智能体环境中的样本复杂度，通过两人零和马尔科夫博弈问题的研究发现，此种算法的样本复杂度为大 O （SA（1-γ）-3ε-2）, 优于其他方法，但其依赖于动作空间大小，存在一定局限性。
PDF4 years ago