基于人格混合的脉冲神经元演员网络,用于高效多智能体协作
基于 Hierarchical Opponent Modeling and Planning (HOP) 算法的多智能体强化学习能够在混合动机环境中实现对未知策略的少样本适应,并显示出在不同未知对手和自对弈场景中优越的适应能力,同时在复杂多智能体环境中表现出社交智能的潜力。
Jun, 2024
本文中,我们通过引入社会心理学原则,提出了一种新的 MARL 方法 Coordinated Policy Optimization(CoPO),用于协调自驱粒子系统中多个代理的行为,并最大化个体目标,实验结果表明,与 MARL 基线相比,CoPO 可以在各种度量方面实现优越的性能。
Oct, 2021
通过引入个性建模网络(PeMN),以及合作价值函数和个性参数,我们在高互动场景中模拟车辆间各种交互,并改进了自车的性能和泛化能力。实验证明,PeMN 可以有效地模拟多样化的驾驶风格,并且相比传统的多智能体强化学习方法,使用 PeMN 进行训练的策略具有更好的泛化性能。
Feb, 2024
本文探讨了如何通过使用 other-play 算法增强 self-play 算法,以解决在多智能体协同环境中遇到未知合作伙伴时的问题,并以 Hanabi 卡牌游戏为例展示了该算法的实验结果。
Mar, 2020
本研究针对多智能体强化学习在与人合作零 - shot 学习过程中的十分关键的限制,并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法,该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估 Overcooked benchmark,HSP 方法成功获得了更高的协同收益,并被受试者评选为最有帮助的策略。
Feb, 2023
本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题,以实现智能体对人类和其他智能体的有效交互,并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。
Mar, 2022
这项研究提出了一种名为 MOPN 的多目标指针网络单模型深度强化学习框架,用于有效解决多目标组合优化问题,在不同应用场景下深度增强学习与代表性模型、迁移学习等策略相结合下取得了更好的性能。
Apr, 2022
本文探究如何培训出更好地与人类合作的机器人,提出了一种名为 Fictitious Co-Play 的方法,通过与自己过去的训练成果和自己对战来训练代理人合作,实证实验显示在与新型代理人和人类伙伴(比如二人协作烹饪模拟器)合作时,使用 FCP 方法产生显著更高的学习效果与人类喜好。
Oct, 2021
本研究提出了一种基于贝叶斯网络的多代理协作强化学习算法,建立了协作性马尔可夫博弈中多代理行动选择的依赖关系并证明了其全局收敛性和优越性,通过可微的有向无环图,实现了动态学习具有背景感知能力的贝叶斯网络策略,并在多个 MARL 基准测试中获得了改进。
Jun, 2023