通过分层对手建模和规划在混合动机环境中实现高效适应

Jun, 2024

通过分层对手建模和规划在混合动机环境中实现高效适应

Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning

Yizhe Huang, Anji Liu, Fanqi Kong, Yaodong Yang, Song-Chun Zhu...

TL;DR基于 Hierarchical Opponent Modeling and Planning (HOP) 算法的多智能体强化学习能够在混合动机环境中实现对未知策略的少样本适应，并显示出在不同未知对手和自对弈场景中优越的适应能力，同时在复杂多智能体环境中表现出社交智能的潜力。

Abstract

Despite the recent successes of multi-agent reinforcement learning (MARL) algorithms, efficiently adapting to co-players in mixed-motive environments remains a significant challenge. One feasible approach is to h

multi-agent reinforcement learning hierarchical opponent modeling few-shot adaptation mixed-motive environments monte carlo tree search

发现论文，激发创造

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

对手学习建模的学习

提出了一种名为 LeMOL 的对手学习动态建模方法，该方法用于结构化对手建模，以通过学习对手的适应和学习行为来降低策略搜索算法中的方差，从而提高多代理系统中算法代理的性能。

Jun, 2020

自适应即时策略对接

本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题，以实现智能体对人类和其他智能体的有效交互，并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。

Mar, 2022

基于模型的多智能体策略优化与对手智能化决策

本文研究了多智能体强化学习中的基于模型的方法，提出了自适应对手推演策略优化（AORPO）的分散化的基于模型的 MARL 方法，旨在全过程中降低样本复杂度，并在竞争和合作任务中开展实证研究，表明 AORPO 能够实现比对比 MARL 方法更好的样本效率和相似的渐近性能。

May, 2021

通过对抗性集成强化学习在非对称不完美信息游戏中实现强大的对手建模

本文提出了一种算法框架，用于在不完美信息的非对称博弈中学习鲁棒策略，并通过对手建模来推断对手类型，使用多智能体强化学习技术通过自我博弈学习对手模型，并使用集成训练方法来提高策略的稳健性，借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。

Sep, 2019

促进协作多智能体强化学习的层次任务网络规划

本篇论文提出了 SOMARL 框架，利用符号知识嵌入 HTN 和元控制器中的 MARL 环境中，针对 FindTreasure 和 MoveBox 两种基准实验表现出比现有技术和基于子目标的基线更好的绩效。

Jun, 2023

iPLAN: 分布式多智能体强化学习在异质交通中的意图感知规划

本文提出了一种分布式多智能体强化学习算法，采用轨迹和意图预测，以应对自动驾驶汽车在密集交通情况下的安全和高效导航问题，并采用 iPLAN 方法进行意图感知规划，通过设计两种激励模块，促进从行为和长期的驾驶策略与当前交通情况的短期策略方面进行决策，仿真实验结果表明，与集中式 MARL 基线相比，本文提出的方法在混乱交通中的奖励、成功率和幸存时间上均有所提高。

Jun, 2023

基于模型的对手建模

本文提出基于模型的对手建模（MBOM）方法，通过模拟环境模型中的递归推理过程和混合想象对手策略来适应各种类型的对手，在固定策略、初学者和推理者等多重对手场景中，MBOM 的适应性比现有方法更优。

Aug, 2021

多智能体 MDPs 中的自适应对手策略检测：利用运行误差估计的实时策略切换识别

在多智能体强化学习中，准确地感知对手策略对于合作和对抗环境都是必不可少的，本文提出了一种在线算法 OPS-DeMo，通过使用动态误差衰减来检测对手策略的变化，并在多智能体环境中将 PPO 算法更有效地应用于对策略的训练，相较于 PPO，在动态情景下表现更出色，提供更强的鲁棒性和更准确的对手策略洞察。

Jun, 2024

异质智能体强化学习

本文提出了基于 HARL 算法的新框架 HAML，将多智能体强化学习的合作扩展到异构智能体模式，并对该框架下的多种算法进行了验证和比较。测试表明，HARL 算法在协调异构智能体方面的稳定性和有效性要优于现有的 MA 对应物。

Apr, 2023