融合前瞻性和想象力：基于模型的协作多智能体强化学习

Apr, 2022

融合前瞻性和想象力：基于模型的协作多智能体强化学习

Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent Reinforcement Learning

Zhiwei Xu, Dapeng Li, Bin Zhang, Yuan Zhan, Yunpeng Bai...

TL;DR本文提出了一种隐式的基于模型的多智能体强化学习方法，基于价值分解方法，能够提高在不同部分可观察的马尔可夫决策过程领域中的样本效率。

Abstract

Recently, model-based agents have achieved better performance than model-free ones using the same computational budget and training time in single-agent environments. However, due to the complexity of multi-agent system

model-based agents multi-agent systems reinforcement learning value decomposition methods sample efficiency

发现论文，激发创造

利用世界模型的解缠以增强基于价值的多智能体强化学习

通过提出一种名为价值分解框架与解耦世界模型的新型基于模型的多智能体强化学习方法，本研究解决了多智能体在相同环境下实现共同目标的挑战，降低了样本复杂度，并通过实验结果表明，在 StarCraft II 微管理挑战中，该方法在样本效率和击败敌军方面表现出卓越的性能。

Sep, 2023

基于模型的价值估计，用于高效的无模型强化学习

本文提出了一种基于模型的价值拓展方法，通过限制想象的深度，控制模型的不确定性，提高了模型自由强化学习算法中学习价值估计的样本复杂度，针对连续控制任务使用了学习到的动态模型。

Feb, 2018

协作多智体学习的价值分解网络

利用价值分解网络架构解决合作多智能体强化学习中的观测部分性、虚假奖励和 “懒惰智能体” 问题，并在与共享权重、角色信息和信息通道相结合的情况下，在部分可观测的多智能体领域取得优越结果。

Jun, 2017

疑虑时，慢思考：具有潜在想象力的迭代推理

我们在这项工作中提出了一种新颖的、无需训练的方法，通过在决策时应用迭代推理，基于未来状态表示的连贯性来优化被推理的智能体状态，从而提高了模型驱动的强化学习智能体的性能。

Feb, 2024

可解释化多智能体强化学习的概念学习

本文介绍了一种将领域专家的可解释概念纳入到多智能体强化学习模型中的方法，以提高模型的解释性和稳定性，提高性能和样本效率。

Feb, 2023

多视角梦境：对比学习的多视角世界模型

本文提出了一个新的强化学习代理，Multi-View Dreaming，用于从多视角观测中进行综合识别和控制。我们使用对比学习来训练不同视角之间的共享潜在空间，并展示了如何使用专家产品方法来集成和控制多个视角的概率分布的潜在状态。我们还提出了 Multi-View DreamingV2，它使用分类分布来建模潜在状态，并证明该方法在实际机器人控制任务中优于现有方法的简单扩展。

Mar, 2022

可伸缩的多智能体模型基强化学习

本文提出了一种名为 MAMBA 的新方法，通过利用基于模型的强化学习（MBRL）进一步利用合作环境中的集中式训练，从而使代理之间的通信足以在执行阶段维持每个代理的世界模型，而虚拟推演可用于培训，从而通过减少与环境的互动次数，以与 Model-Free 的现有方法相比，在 SMAC 和 Flatland 的具有挑战性的领域中实现良好的性能。

May, 2022

协作多智体强化学习的奖励机器

研究团队提出使用奖励机器（RM）对协作多智能体强化学习中的团队任务进行编码，分解任务成子任务分配给个体智能体去完成，提出一种分布式完成子任务的算法，提供了一种自然去中心化学习的方法，并在实验中验证了所提出的方法非常有效。

Jul, 2020

利用认知和机器模型在协作多智能体系统中学习

基于平衡学习理论和深度强化学习技术，我们提出了三种多智能体实例基学习（MAIBL）模型，用于协调在随机环境下的多智能体系统。通过在动态环境中展示瞬间学习能力和协调技巧，我们证明 MAIBL 模型相对于现有的多智能体深度强化学习模型更快地学习和实现更好的协调。我们还讨论了将认知洞察力整合到多智能体深度强化学习模型中的好处。

Aug, 2023

合作多智能体任务中的奖励机器学习

本文提出了一种新的多智能体强化学习方法，该方法将合作任务分解与学习奖励机器相结合，以编码子任务的结构。该方法有助于处理部分可观察环境中奖励的非马尔可夫性质，并提高了完成合作任务所需的学习策略的可解释性。每个子任务关联的奖励机器以分散的方式学习，然后用于指导每个智能体的行为，从而减少了合作多智能体问题的复杂性，更有效的学习。结果表明，我们的方法是未来 MARL 研究的一个有前景的方向，特别是在具有大状态空间和多个智能体的复杂环境中。

Mar, 2023