多智能体强化学习中以自我为本地对他人建模

ICMLFeb, 2018

多智能体强化学习中以自我为本地对他人建模

Modeling Others using Oneself in Multi-Agent Reinforcement Learning

Roberta Raileanu, Emily Denton, Arthur Szlam, Rob Fergus

TL;DR本文提出了一种基于 Self Other-Modeling 的学习方法，用于解决多智能体强化学习中的信息不完全问题，并可用于解决合作和敌对情境下的任务。

Abstract

We consider the multi-agent reinforcement learning setting with imperfect information in which each agent is trying to maximize its own utility. The reward function depends on the hidden state (or goal) of both a

multi-agent reinforcement learning imperfect information self other-modeling hidden state utility maximization

发现论文，激发创造

以心理理论为基础的多智能体强化学习的内在动机理论

该论文介绍了利用深度网络来模拟人类心智状态，并在多智能体环境中进行信念预测和强化学习的初步实验结果。

Jul, 2023

深度强化学习中的对手建模

本文介绍了一种基于神经网络和任务多项式结构的对手建模方法，该方法能够应用于多智能体环境下的策略自适应，通过对足球和智力竞赛等游戏的模拟实验可知该方法胜于深度 Q 网络及其衍生方法。

Sep, 2016

多智能体强化学习中影响长期行为

本文提出了一个基于 farsighted objective 的新优化目标以及一种新的多智能体强化学习方法，实现了优于现有基线结果的长期性能。

Mar, 2022

基于心智推理的多智能体逆强化学习

本文探讨了在协作场景中人们如何相互交互尤其是在个体了解队友很少的情况下，通过多智能体逆强化学习（MIRL）来推断每个个体行为背后的奖励函数。针对这个问题，我们提出一个新颖的 MIRL-ToM 模型，结合了理论思维（Theory of Mind）和最大熵 IRL，成功地恢复了用于有知晓或无知晓队友互动的奖励。

Feb, 2023

基于对比学习的深度强化学习中的代理建模

多代理系统中，对智能机器代理进行适应性策略设计时，代理建模是至关重要的，通过代理建模可以理解其他代理的行为并提取有意义的策略表示，为增强自我代理的适应性策略提供帮助。这篇研究以对比学习为基础的代理建模方法（CLAM）只依赖于自我代理在训练和执行过程中的局部观察，可以实时生成一致且高质量的策略表示，且在合作和竞争多代理环境中取得了最先进的结果，突显了对比学习为基础的代理建模在增强式学习中的潜力。

Dec, 2023

学习如何激励其他学习智能体

本文提出了在多个智能体环境中，为每个 RL 智能体提供直接向其它智能体给予奖励的能力，并通过学习后的激励函数影响其它智能体，从而达到协作的目的。实验结果显示，在 challenging general-sum Markov games 中，相对于标准 RL 和对手建模代理，这种方法在寻找最优的分工方面取得了巨大的成功。

Jun, 2020

利用信息正则化学会共享与隐藏意图

本研究提出一种信息理论规则化方法，以学习多智能体强化学习中的合作和竞争策略，结果在两个简单的非对称信息博弈中表明，使用我们提出的方法学习到的合作（竞争）策略会带来更多（更少）的奖励。

Aug, 2018

通过对抗性集成强化学习在非对称不完美信息游戏中实现强大的对手建模

本文提出了一种算法框架，用于在不完美信息的非对称博弈中学习鲁棒策略，并通过对手建模来推断对手类型，使用多智能体强化学习技术通过自我博弈学习对手模型，并使用集成训练方法来提高策略的稳健性，借助随机优化方案动态更新对手整体来平衡稳健性和计算复杂性。

Sep, 2019

融合前瞻性和想象力：基于模型的协作多智能体强化学习

本文提出了一种隐式的基于模型的多智能体强化学习方法，基于价值分解方法，能够提高在不同部分可观察的马尔可夫决策过程领域中的样本效率。

Apr, 2022

Actor-Mimic: 深度多任务和转移强化学习

本研究提出了一种名为 “Actor-Mimic” 的多任务学习和迁移学习方法，通过深度强化学习和模型压缩技术来训练一个单一的策略网络，并通过多个专家教师的指导来学习在不同任务中的行为，并使用先前的知识解决新任务。研究结果表明，该方法的表征能力可以通过无先验的专家指导来推广到新的任务并加速学习。本方法可以应用于多样的问题，为了说明其效果，我们在 Atari 游戏上进行了测试。

Nov, 2015