MAC-PO: 基于集体优先级优化的多智能体经验回放
该研究提出了两种解决 multi-agent reinforcement learning 中 nonstationarity 问题的方法,并在 StarCraft 单元微观管理的分散式变量上得到了成功的实验结果。
Feb, 2017
我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量,即多智能体解耦系数 (MADC),我们旨在找到基于样本高效学习的最小假设。利用该度量,我们提出了首个统一的算法框架,可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外,我们还展示了与现有工作相比,我们的算法提供了可比较的次线性遗憾。此外,我们的算法结合了一个均衡求解器和一个单一目标优化次程序,用于求解每个确定性联合策略的正则化收益,从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023),或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程,因此更适合于实证实现。
Oct, 2023
本文提出了一种基于优先体验的进化认知强化学习算法,用于处理多车追逐问题。该算法利用优先级网络对各个智能体的参数进行评估和个性化学习,引入了多样性,以提高协作和任务相关性能。同时,该算法还采用了注意力机制来从复杂的城市交通环境中提取关键特征,并使用进化认知方法自适应地对追逐车辆进行有效分组,进一步提高了追逐效率。
Jun, 2023
通过并行自注意力网络,直接量化改变的分布程度以准确补偿误差,并设计优化样本筛选标准的优先 - 鼓励机制来提高训练效率。与基于值函数、基于策略梯度和多智能体强化学习算法相结合验证 DALAP 的有效性和普适性,多组对比实验表明 DALAP 在提高收敛速度和减小训练方差方面具有显著优势。
Nov, 2023
本文提出了一种基于稳态分布概率的重要性重排经验的 TD 学习方法,使用无需概率密度函数的估算器来指定优先级权重,将此方法应用于两种竞争性强的学习算法(软演员 - 评论家(SAC)和 Twin Delayed 深度确定性策略梯度(TD3)),在一系列 OpenAI gym 任务中实现了比其他基线方法更高的样本复杂度。
Jun, 2020
将 Remember and Forget for Experience Replay(ReF-ER)算法扩展到了多智能体强化学习(MARL)领域,并在 Stanford Intelligent Systems Laboratory(SISL)环境中的对比实验中证明,采用单级前馈神经网络模型实现 ReF-ER MARL 算法,其性能表现优于现有复杂神经网络架构的算法。
Mar, 2022
通过辅助学习目标,MAPO-LSO 在多智能体强化学习中通过学习有意义的潜在表示空间来提高样本效率,并展示出在各种多智能体强化学习任务中相比普通的多智能体强化学习模型有显著的学习性能和样本效率的改进。
Jun, 2024