系统神经多样性:多智能体学习中的行为多样性测量
本文介绍了一种基于行为多样性的优化方法,该方法使用任务不可知的行为嵌入度量整个人群的行为流形的体积,并通过在线学习技术适应多样性程度,从而提高探索能力,而不会降低性能。
Feb, 2020
该研究利用社会心理学中的互相依存理论,探究强化学习在混合动机游戏中的效果,发现代理人的群体异质性对于代理人的行为变化有着显著的影响,并在两个混合动机Markov游戏中得到实证结果。
Feb, 2020
本研究介绍了多智能体强化学习中多样性的重要性,并提出了信息理论正则化和共享神经网络架构中的代理特定模块的方法,以促进代理之间的协作和多样性,实验结果表明该方法在Google Research Football和超难的星际争霸II微观管理任务上取得了最先进的表现。
Jun, 2021
通过量化角色多样性作为度量多智能体任务特征的因素,我们发现,MARL中的误差限可以分解为3个部分,并且这些分解因素对3个热门方向的政策优化具有显著影响,通过MPE和SMAC平台的实验验证,角色多样性可以作为多智能体协作任务特征的强劲度量,并帮助诊断政策是否适合当前的多智能体系统以实现更好的性能。
Jun, 2022
通过在8种最先进的方法上进行广泛的实证评估,本文证明了Quality Diversity (QD) 方法是技能发现的一种有竞争力的替代方案,既可以提供相同甚至更好的性能,而且对超参数更不敏感且可扩展性更高。
Oct, 2022
研究介绍了一种名为 HetGPPO 的新型多智能体强化学习模型,利用图神经网络促进智能体间的通信来优化中介异质性策略,实现了在部分可观测环境下的完全去中心化训练,从而在真实世界中取得了比均质模型更好的鲁棒性。
Jan, 2023
第二届Neural MMO挑战赛的结果表明,在多智能体系统中的鲁棒性和泛化性能上取得了令人满意的成果,参与者通过使用标准强化学习方法结合领域特定的工程技术,训练出能够在与训练过程中未见过的对手下完成多任务目标的智能体团队。该挑战赛的设计和结果总结表明,作为学术界的一种强有力的方法,竞赛可以解决难题并为算法建立可靠的基准。我们将开源我们的基准测试,包括环境封装器、基准模型、可视化工具和选定的策略,以供进一步研究。
Aug, 2023
基于多样性的强化学习在问题优化与策略发现方面面临基本挑战。该研究通过引入状态空间距离信息和优化计算框架,开发了一种新的多样性驱动的强化学习算法 SIPO,实现了对多个领域的多样性和人类可解释的策略的持续发现。
Oct, 2023
多样性在提高多智能体强化学习(MARL)性能方面起着关键作用,本文提出了一种通用的量化智能体政策差异的工具,多智能体政策距离(MAPD),并通过在线部署设计了一个多智能体动态参数共享(MADPS)算法来应用该工具。实验证明,我们的方法在衡量智能体政策差异和特定行为倾向方面是有效的,并且相比其他参数共享方法,MADPS表现出更优越的性能。
Jan, 2024
多智能体强化学习中行为多样性的研究是一个新兴且有潜力的领域。本研究提出了一种名为DiCo的多样性控制方法,通过在策略架构中应用约束,能够在不改变学习目标的情况下精确控制多样性,从而增加多智能体强化学习算法的性能和样本利用率。
May, 2024