基于人格混合的脉冲神经元演员网络，用于高效多智能体协作

May, 2023

基于人格混合的脉冲神经元演员网络，用于高效多智能体协作

Mixture of personality improved Spiking actor network for efficient multi-agent cooperation

Xiyun Li, Ziyi Ni, Jingqing Ruan, Linghui Meng, Jing Shi...

TL;DR研究多智体强化学习中的人机智能协作和多智体协作，提出一种混合个性模型改进的尖峰演员网络，以在合作场景下实现高性能表现，并说明了该算法的有效性和深度神经网络在合作测试中表现差的原因。

Abstract

Adaptive human-agent and agent-agent cooperation are becoming more and more critical in the research area of multi-agent reinforcement learning (MARL), where remarked progress has been made with the help of

multi-agent reinforcement learning deep neural networks personality theory spiking actor network cooperation

发现论文，激发创造

通过分层对手建模和规划在混合动机环境中实现高效适应

基于 Hierarchical Opponent Modeling and Planning (HOP) 算法的多智能体强化学习能够在混合动机环境中实现对未知策略的少样本适应，并显示出在不同未知对手和自对弈场景中优越的适应能力，同时在复杂多智能体环境中表现出社交智能的潜力。

Jun, 2024

利用协调策略优化学习模拟自驱颗粒系统

本文中，我们通过引入社会心理学原则，提出了一种新的 MARL 方法 Coordinated Policy Optimization（CoPO），用于协调自驱粒子系统中多个代理的行为，并最大化个体目标，实验结果表明，与 MARL 基线相比，CoPO 可以在各种度量方面实现优越的性能。

Oct, 2021

高度互动自动驾驶场景中的多智能体强化学习模型多样驾驶行为

通过引入个性建模网络（PeMN），以及合作价值函数和个性参数，我们在高互动场景中模拟车辆间各种交互，并改进了自车的性能和泛化能力。实验证明，PeMN 可以有效地模拟多样化的驾驶风格，并且相比传统的多智能体强化学习方法，使用 PeMN 进行训练的策略具有更好的泛化性能。

Feb, 2024

零样本协调的 “其他 - 玩耍

本文探讨了如何通过使用 other-play 算法增强 self-play 算法，以解决在多智能体协同环境中遇到未知合作伙伴时的问题，并以 Hanabi 卡牌游戏为例展示了该算法的实验结果。

Mar, 2020

假设人类有偏见，学习与人类的零射合作

本研究针对多智能体强化学习在与人合作零 - shot 学习过程中的十分关键的限制，并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法，该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估 Overcooked benchmark，HSP 方法成功获得了更高的协同收益，并被受试者评选为最有帮助的策略。

Feb, 2023

演化内在动机以促进利他行为

本篇论文研究多智体系统中的合作问题，发现可通过结合自然选择与 MARL 来实现无模型的协作特征学习，支持多层次选择的创新模块化架构结构为此提供了解决方案。

Nov, 2018

自适应即时策略对接

本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题，以实现智能体对人类和其他智能体的有效交互，并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。

Mar, 2022

组合优化的多目标指针网络

这项研究提出了一种名为 MOPN 的多目标指针网络单模型深度强化学习框架，用于有效解决多目标组合优化问题，在不同应用场景下深度增强学习与代表性模型、迁移学习等策略相结合下取得了更好的性能。

Apr, 2022

无需人类数据的人机协作

本文探究如何培训出更好地与人类合作的机器人，提出了一种名为 Fictitious Co-Play 的方法，通过与自己过去的训练成果和自己对战来训练代理人合作，实证实验显示在与新型代理人和人类伙伴（比如二人协作烹饪模拟器）合作时，使用 FCP 方法产生显著更高的学习效果与人类喜好。

Oct, 2021

面向上下文的贝叶斯网络演员 - 评论者方法用于协作多智体强化学习

本研究提出了一种基于贝叶斯网络的多代理协作强化学习算法，建立了协作性马尔可夫博弈中多代理行动选择的依赖关系并证明了其全局收敛性和优越性，通过可微的有向无环图，实现了动态学习具有背景感知能力的贝叶斯网络策略，并在多个 MARL 基准测试中获得了改进。

Jun, 2023