多智能体 MDPs 中的自适应对手策略检测：利用运行误差估计的实时策略切换识别

Jun, 2024

多智能体 MDPs 中的自适应对手策略检测：利用运行误差估计的实时策略切换识别

Adaptive Opponent Policy Detection in Multi-Agent MDPs: Real-Time Strategy Switch Identification Using Running Error Estimation

PDF

Mohidul Haque Mridul, Mohammad Foysal Khan, Redwan Ahmed Rizvee, Md Mosaddek Khan

TL;DR在多智能体强化学习中，准确地感知对手策略对于合作和对抗环境都是必不可少的，本文提出了一种在线算法 OPS-DeMo，通过使用动态误差衰减来检测对手策略的变化，并在多智能体环境中将 PPO 算法更有效地应用于对策略的训练，相较于 PPO，在动态情景下表现更出色，提供更强的鲁棒性和更准确的对手策略洞察。

Abstract

In multi-agent reinforcement learning (MARL), accurately perceiving opponents' strategies is essential for both cooperative and adversarial contexts, particularly within dynamic environments. While Proximal Policy Optimization (PPO) and related algorithms such as Actor-Critic with Expe

multi-agent reinforcement learning proximal policy optimization opponents' policies ops-demo dynamic scenarios

发现论文，激发创造

基于模型的多智能体策略优化与对手智能化决策

本文研究了多智能体强化学习中的基于模型的方法，提出了自适应对手推演策略优化（AORPO）的分散化的基于模型的 MARL 方法，旨在全过程中降低样本复杂度，并在竞争和合作任务中开展实证研究，表明 AORPO 能够实现比对比 MARL 方法更好的样本效率和相似的渐近性能。

May, 2021

对手学习建模的学习

提出了一种名为 LeMOL 的对手学习动态建模方法，该方法用于结构化对手建模，以通过学习对手的适应和学习行为来降低策略搜索算法中的方差，从而提高多代理系统中算法代理的性能。

Jun, 2020

通过对抗性集成强化学习在非对称不完美信息游戏中实现强大的对手建模

本文提出了一种算法框架，用于在不完美信息的非对称博弈中学习鲁棒策略，并通过对手建模来推断对手类型，使用多智能体强化学习技术通过自我博弈学习对手模型，并使用集成训练方法来提高策略的稳健性，借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。

Sep, 2019

通过分层对手建模和规划在混合动机环境中实现高效适应

基于 Hierarchical Opponent Modeling and Planning (HOP) 算法的多智能体强化学习能够在混合动机环境中实现对未知策略的少样本适应，并显示出在不同未知对手和自对弈场景中优越的适应能力，同时在复杂多智能体环境中表现出社交智能的潜力。

Jun, 2024

异构多智能体强化学习：镜像下降策略优化

该论文介绍了一种扩展的 Mirror Descent 方法，用于克服合作多智能体强化学习设置中的挑战，其中智能体具有不同的能力和个体策略。提出的 Heterogeneous-Agent Mirror Descent Policy Optimization 算法利用多智能体优势分解引理来实现每个智能体的高效策略更新，同时确保整体性能改进。通过通过解决信任域问题的近似解来迭代更新智能体策略，HAMDPO 保证了稳定性并提高了性能。此外，HAMDPO 算法能够处理多样化智能体在各种 MARL 问题中连续和离散的动作空间。我们在 Multi-Agent MuJoCo 和 StarCraftII 任务上评估了 HAMDPO，证明其在 HATRPO 和 HAPPO 等最先进算法方面的优越性。这些结果表明，HAMDPO 是解决合作 MARL 问题的一种有希望的方法，可能还可以扩展到解决 MARL 领域中的其他挑战性问题。

Aug, 2023

多智能体信任区域策略优化

该研究将信任区域策略优化（TRPO）扩展到多智能体强化学习（MARL）问题，提出了一种基于分布式共识优化问题的去中心化 MARL 算法 MATRPO，该算法能够基于本地观察和私人奖励优化分布式策略，实现完全的去中心化和保护隐私。实验表明，MATRPO 在复杂的 MARL 任务中表现出了强韧的性能。

Oct, 2020

利用转化和蒸馏框架实现合作多智能体强化学习的全局最优

本文提出了一种名为 TAD 的框架用于解决多智能体强化学习中去中心化执行策略下的优化问题，并理论上证明了使用 devaluation descent 优化方法时多个流行的多智能体强化学习算法是次优的。使用该框架实施的 TAD-PPO 算法在一系列合作多智能体任务中，相对于基于 PPO 算法的算法具有显著的优越性能。

Jul, 2022

多智能体强化学习在海上操作技术网络安全中的应用

该论文展示了自主网络防御在工业控制系统中的潜力，并提供了一个基线环境，进一步探索多智能体强化学习在此问题领域的应用。

Jan, 2024

相对熵正则化的有效多智能体深度强化学习控制

本文提出了一种新颖的多智能体强化学习方法，即多智能体连续动态策略梯度（MACDPP），用于解决多智能体控制的各种场景中的能力有限性和样本效率的问题。通过在中央化训练与分散执行的框架中引入相对熵正则化以及参与者 - 判别者结构，缓解了多个智能体策略更新的不一致性。通过多智能体协作和竞争任务以及传统控制任务，包括 OpenAI 基准和机械臂操纵，评估了 MACDPP 在学习能力和样本效率方面相对于相关的多智能体和广泛实施的信号 - 智能体基准的显著优越性，从而扩展了多智能体强化学习在有效学习具有挑战性的控制场景中的潜力。

Sep, 2023

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022