针对协作式多智能体强化学习的可扩展价值分解探索算法
该研究论文介绍了一个基于奇异值分解的方法,用于在领域中保留基础转换结构的表示,从而提供伪计数的估计,在多任务中展示了结果,并解决了部分可观测的环境下的难以探索的任务。
May, 2023
利用价值分解网络架构解决合作多智能体强化学习中的观测部分性、虚假奖励和 “懒惰智能体” 问题,并在与共享权重、角色信息和信息通道相结合的情况下,在部分可观测的多智能体领域取得优越结果。
Jun, 2017
本研究提出了一种新的显式学分分配方法,名为具有贪心边际贡献的自适应价值分解(AVGM),它基于一种自适应价值分解,可以学习动态变化的多个智能体组的协作价值,并使用由价值分解计算出的贪心边际贡献作为个体信用来激励智能体学习最优协作策略。实验结果表明,我们的方法在多个非单调领域取得了显着的性能提高。
Feb, 2023
Discrete-action 强化学习算法在具有高维离散行动空间的任务中常常表现不佳,由于可能的行动数量庞大。最近的一项进展利用来自多智能体强化学习的价值分解概念来解决这一挑战。本研究深入研究了价值分解的效应,揭示出其虽然减少了 Q-learning 算法固有的过高估计偏差,但却加大了目标方差。为了对抗这一挑战,我们提出了一个评论家集合来减轻目标方差。此外,我们引入了一种正则化损失,帮助减轻一个维度上的探索性行动对其他维度上的最优行动价值的影响。我们的新算法 REValueD 在 DeepMind Control Suite 任务的离散化版本上经过测试,展示了卓越的性能,特别是在挑战性的人形和犬类任务中。我们进一步解剖了影响 REValueD 性能的因素,评估了正则化损失的重要性以及随着每个维度子行动数量的增加,REValueD 的可扩展性。
Jan, 2024
本论文提出一种名为 Q-value Path Decomposition(QPD)的方法,该方法利用集成渐变归因技术对深度多智能体强化学习中的全局 Q 值进行分解,以便为代理分配信用,解决了多智能体信用分配的关键挑战,该方法在 StarCraft II 微观管理任务中优于现有协作 MARL 算法。
Feb, 2020
通过提出一种名为价值分解框架与解耦世界模型的新型基于模型的多智能体强化学习方法,本研究解决了多智能体在相同环境下实现共同目标的挑战,降低了样本复杂度,并通过实验结果表明,在 StarCraft II 微管理挑战中,该方法在样本效率和击败敌军方面表现出卓越的性能。
Sep, 2023
本文研究了多智能体强化学习中的值函数分解方法在协作游戏中的适用情况、算法的收敛性质、深度神经网络的表示法及其应用,进一步提出了分解型协作游戏的概念,并理论证明了分解型协作游戏中多智能体适应 Q - 迭代算法(MA-FQI)可以导致最优 Q 函数。
Feb, 2022
在合作多智能体强化学习(Co-MARL)中,我们提出了一种隐私工程化的价值分解网络(PE-VDN)算法来建模多智能体间的协作且可确保各智能体的环境交互数据的机密性,通过整合分布式计算方案、隐私保护的多方计算协议和差分隐私技术,PE-VDN 在保证有效的隐私保护水平的同时实现了高达 Vanilla VDN 80% 的胜率。
Sep, 2023
在一个公共环境下,考虑一组同时运行的强化学习智能体,我们提出了一种适用于实际规模问题的高效协同探索方法,该方法建立在种子抽样和随机值函数学习的基础上,并证明该方法在简单表格式上与先前提出的表格式学习方法相当竞争力,在高维度问题和神经网络值函数表示的情况下,该方法可以通过使用更少的代理学习更快地进行探索比替代方法。
May, 2018