多智能体 Actor-Critic 与时间动态对手模型

Apr, 2022

多智能体 Actor-Critic 与时间动态对手模型

Multi-agent Actor-Critic with Time Dynamical Opponent Model

Yuan Tian, Klaus-Rudolf Kladny, Qin Wang, Zhiwu Huang, Olga Fink

TL;DR本文提出了一种名为 Time Dynamical Opponent Model 的新型多智能体强化学习方法，提高了智能体在协助和竞争环境中的管用性。

Abstract

In multi-agent reinforcement learning, multiple agents learn simultaneously while interacting with a common environment and each other. Since the agents adapt their policies during learning, not only the behavior of a single agent becomes non-stationary, but also the environment as per

multi-agent reinforcement learning time dynamical opponent model actor-critic cooperative-competitive environments policy improvement

发现论文，激发创造

多智能体 MDPs 中的自适应对手策略检测：利用运行误差估计的实时策略切换识别

在多智能体强化学习中，准确地感知对手策略对于合作和对抗环境都是必不可少的，本文提出了一种在线算法 OPS-DeMo，通过使用动态误差衰减来检测对手策略的变化，并在多智能体环境中将 PPO 算法更有效地应用于对策略的训练，相较于 PPO，在动态情景下表现更出色，提供更强的鲁棒性和更准确的对手策略洞察。

Jun, 2024

对手建模中的双重深度 Q 学习

本研究使用 DDQN 和优先经验重放机制模拟主代理和二级代理的策略，并通过对手建模架构识别不同的对手策略模式，最终在两个环境下分析了我们的模型，研究结果表明基于对手建模的 Mixture-of-Experts 模型表现优于 DDQN。

Nov, 2022

使用虚拟对手模型进行决策

提出了一种基于分布式 Actor-Critic 算法的多智能体虚拟对手建模方法，通过构建虚拟模型来模拟未观察到对手的行为，使用本地可得信息实现虚拟对手模型的训练和优化。实验证明该方法能有效准确地模拟对手行为，相较于基线方法具有更快的收敛速度并显著提升了性能表现。

Nov, 2022

基于模型的对手建模

本文提出基于模型的对手建模（MBOM）方法，通过模拟环境模型中的递归推理过程和混合想象对手策略来适应各种类型的对手，在固定策略、初学者和推理者等多重对手场景中，MBOM 的适应性比现有方法更优。

Aug, 2021

对手学习建模的学习

提出了一种名为 LeMOL 的对手学习动态建模方法，该方法用于结构化对手建模，以通过学习对手的适应和学习行为来降低策略搜索算法中的方差，从而提高多代理系统中算法代理的性能。

Jun, 2020

基于模型的多智能体策略优化与对手智能化决策

本文研究了多智能体强化学习中的基于模型的方法，提出了自适应对手推演策略优化（AORPO）的分散化的基于模型的 MARL 方法，旨在全过程中降低样本复杂度，并在竞争和合作任务中开展实证研究，表明 AORPO 能够实现比对比 MARL 方法更好的样本效率和相似的渐近性能。

May, 2021

分布式强化学习的多智能体离线演员 - 评论家算法

本研究将离线策略强化学习拓展至多智能体情景中，并利用强调时间差分学习来评估和提高目标策略的协作效应，进而提出了一种新的多智能体离线策略演员 - 评论家算法，并证明了收敛性。

Mar, 2019

深度强化学习中的对手建模

本文介绍了一种基于神经网络和任务多项式结构的对手建模方法，该方法能够应用于多智能体环境下的策略自适应，通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。

Sep, 2016

离线多智能体强化学习中的扩散政策与保守性之外

本文提出了一种基于扩散的离线多智能体模型（DOM2），采用轨迹数据增广方案，可以应对环境变化，达到更好的性能、泛化能力和数据效率。实验结果表明，DOM2 在多智能体环境中和 shifted environments 下都比现有算法表现更好，并拥有更强的数据效率。

Jul, 2023

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022