MOPaC:多边谈判中的多重报价协议和部分共识
这项研究提出了一种名为 MOPN 的多目标指针网络单模型深度强化学习框架,用于有效解决多目标组合优化问题,在不同应用场景下深度增强学习与代表性模型、迁移学习等策略相结合下取得了更好的性能。
Apr, 2022
本文提出了一种名为 CoPPO 的算法,用于多智能体环境下的多项策略优化,并证明了该算法在优化理论基础上的联合目标后能够实现动态的学分分配,解决了多智能体系统中同时更新智能体策略时高方差的问题,并通过实验证明其在合作矩阵博弈和 StarCraft II 微观管理任务等典型多智能体环境下优于一些强基线,并与最新的多智能体 PPO 方法(即 MAPPO)相竞争。
Nov, 2021
本文构建了基于距离最小化问题(DMPs)的一系列多方多目标优化问题(MPMOPs),提出了一种新的算法 OptMPNDS3,该算法利用多方初始化方法初始化种群,并采用 JADE2 算子生成后代,与 OptAll、OptMPNDS 和 OptMPNDS2 算法在问题套件上进行对比,结果表明 OptMPNDS3 与其他算法具有很强的可比性。
Jul, 2022
本篇论文基于 CTDE 框架,研究基于 MAPPO 算法的多智能体合作决策,并引入了基于权重调度和注意力机制的多智能体通信机制以缓解多智能体环境中的非稳定性。提出了 MCGOPPO 算法,并在 SMAC 和 MPE 上进行了实验,结果表明此算法可以改善多智能体环境中的非稳定性,提高多智能体间的协同决策能力。
May, 2023
该研究论文关注于多方多目标优化问题(MPMOPs),着眼于冲突目标的多个决策者,如无人机路径规划。通过鼓励研究人员探索定制建模方法,致力于填补 MPMOPs 相对传统多目标优化的研究空白。测试套件由两个部分组成:具有常见帕累托最优解的问题和未知解的两方多目标无人机路径规划(BPMO-UAVPP)问题。第一部分的优化算法使用多方反转生成距离(MPIGD)进行评估,第二部分则使用多方超体积(MPHV)指标进行评估。所有问题上的平均算法排名作为性能基准。
Feb, 2024
提出了一种新的 Cons-DecAF 框架,通过使用 ConsMAC 方法进行多智能体强化学习,利用策略蒸馏实现自适应编队调整,并采用基于 Hausdorff 距离的位移式编队,取得了出色的速度和稳定性表现。
Jul, 2023
该研究提出了一个基于多代理系统的分布式自组织搜索和追踪框架,其中智能代理协同追踪多个动态目标。使用模糊自组织协同共进化(FSC2)算法解决了多目标自组织搜索(SOS)、分布式任务分配和分布式单目标追踪三个方面的挑战。实验表明,该框架可以有效处理具有内在部分观测和分布式决策制定的问题,实现高达近 100%的成功捕获率。
Jun, 2022
通过利用 MA-COPP 方法解决多智能体系统中的离策略预测问题,我们能够为所有智能体的轨迹推导出联合预测区域,避免了枚举或穷举搜索输出空间的复杂工作,并在 PettingZoo 和 F1TENTH 环境中评估了其有效性。
Mar, 2024
多智能体系统中,代理人之间的通信对于加强协调至关重要。本研究提出了一种多智能体协调的方法,其中每个代理人具备将其观察、行动和接收到的信息整合到一个公共操作图中并传播的能力。实验结果表明,与最先进的多智能体强化学习方法相比,基于公共操作图的训练方法在面对分布不均的初始状态时能够产生出鲁棒的策略。
Nov, 2023