高回放率赋予样本高效的多智能体强化学习
本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法,用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题,并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.
Nov, 2017
我们研究了多智能体强化学习 (MARL) 在一般和马尔可夫博弈 (MG) 下具有一般函数逼近的情况。通过引入一种新颖的复杂度度量,即多智能体解耦系数 (MADC),我们旨在找到基于样本高效学习的最小假设。利用该度量,我们提出了首个统一的算法框架,可以在低 MADC 的情况下保证在模型为基础和模型无关的 MARL 问题中学习纳什均衡、粗粒度相关均衡和相关均衡的样本效率性。此外,我们还展示了与现有工作相比,我们的算法提供了可比较的次线性遗憾。此外,我们的算法结合了一个均衡求解器和一个单一目标优化次程序,用于求解每个确定性联合策略的正则化收益,从而避免在数据相关的约束条件下求解约束优化问题 (Jin et al. 2020; Wang et al. 2023),或在复杂的多目标优化问题 (Foster et al. 2023) 中执行抽样过程,因此更适合于实证实现。
Oct, 2023
本文回顾了现有的关于基于模型的多智能体强化学习的研究,包括理论分析、算法和应用,并分析了基于模型的多智能体强化学习的优势和潜力。此外,我们提供了算法的详细分类,并根据多智能体情景中固有的挑战指出每个算法的优点和缺点。最后,我们总结了这一领域未来发展的有前途的方向。
Mar, 2022
通过将各种状态空间统一为固定大小的输入,以便在 MAS 中的不同场景中使用一种统一的深度学习策略,我们介绍了一种新的框架,使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge(SMAC)环境中,通过从其他场景学习到的机动技能,相比于从头学习的智能体,我们的方法在多智能体学习性能方面取得了显著的提升。此外,通过采用课程式迁移学习(CTL),使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能,促进智能体之间和智能体内部的知识传递,从而在更复杂的异质场景中实现高水平的多智能体学习性能。
Feb, 2024
本文提出了一个框架,通过整合数据增强和良好设计的一致性损失,利用先前的知识来改善现有的多智能体强化学习方法,该框架适用于大多数现有的多智能体强化学习算法,并在多项具有挑战性的任务上进行了实验验证其有效性,同时在物理多机器人测试平台上证明了该框架的优越性。
Jul, 2023
通过引入有效的情节记忆利用(EMU)来加速协同多智能体强化学习(MARL),为了减少学习时间并防止局部最优解,EMU 包括一个可训练的编码器 / 解码器结构和一种基于状态可取性的新奖励结构,理论支持和实证结果表明 EMU 相比传统的情节控制方法具有更好的性能。
Mar, 2024
将 Remember and Forget for Experience Replay(ReF-ER)算法扩展到了多智能体强化学习(MARL)领域,并在 Stanford Intelligent Systems Laboratory(SISL)环境中的对比实验中证明,采用单级前馈神经网络模型实现 ReF-ER MARL 算法,其性能表现优于现有复杂神经网络架构的算法。
Mar, 2022
确立良好的实验标准和严谨性对于任何不断发展的研究领域都非常重要。深度多智能体强化学习是一个新兴的研究领域,虽然取得了令人激动的进展,但近期在合作设置方面,它受到了可复制性问题和缺乏标准化评估方法的质疑。尽管已经提出了一些协议来缓解这个问题,但积极监测该领域的健康状况仍然非常重要。本研究通过扩展之前已发表的评估方法数据库,包含了来自顶级会议的深度多智能体强化学习出版物的元数据,并将从此更新的数据库中提取到的结果与其工作中的趋势进行比较。我们的分析表明,许多性能报告方面令人担忧的趋势仍然存在,包括不报告不确定性量化、未报告所有相关评估细节和算法开发类别的狭窄。值得期望的是,我们观察到 SMAC-v1 中更困难场景的趋势,如果这一趋势延续到 SMAC-v2,将鼓励新颖的算法开发。我们的数据表明,多智能体强化学习社区需要更加积极地面对可复制性,以确保在我们迈向令人激动的新领域时对该领域的信任。
Dec, 2023
本文介绍了一个用于多机器人强化学习的可扩展仿真平台 SMART,该平台包含了一个仿真环境和一个真实的多机器人系统,以提供多样化的交互场景进行训练,并支持基于插件的算法实现。在此基础上,我们研究了合作驾驶变道场景所涉及到的若干具有挑战性的问题,并开源我们的仿真环境及其相关基准测试任务和最先进的基线模型,以推动和强化多机器人强化学习的研究。
Jun, 2022