通过学习队友模型实现的分散 MCTS

IJCAIMar, 2020

通过学习队友模型实现的分散 MCTS

Decentralized MCTS via Learned Teammate Models

Aleksander Czechowski, Frans A. Oliehoek

TL;DR本文提出一种可训练的在线分散式规划算法，基于分散蒙特卡洛树搜索，结合先前的剧集运行学习的队友模型，利用深度学习和卷积神经网络生成精确的策略逼近器，提高了策划性能。此算法支持去中心化在线规划的多代理系统.

Abstract

decentralized online planning can be an attractive paradigm for cooperative multi-agent systems, due to improved scalability and robustness. A key difficulty of such approach lies in making accurate predictions about the decisions of other agents. In this paper, we present a trainable

decentralized online planning cooperative multi-agent systems monte carlo tree search deep learning policy approximation

发现论文，激发创造

分层蒙特卡洛树搜索的自动驾驶车辆分散协作规划

这篇论文介绍了一种基于蒙特卡洛树搜索的去中心化合作规划方法，通过使用宏操作来描述自动驾驶车辆在不同的环境中的合作规划，实现不同交通参与者之间的协调和显式建模。

Jul, 2018

学习分散式多臂运动规划器

我们提出了一种具有可扩展性和灵活性的闭环多臂机器人运动规划器，利用多智能体强化学习，训练去中心化策略以控制一个机械臂达到目标终端执行器姿态，通过利用经典规划算法来提高强化学习算法的学习效率，保留神经网络的快速推理时间，得出一个作用于不同团队规模的柔性政策。

Nov, 2020

随机团队与博弈的去中心化 Q-Learning

本文介绍了用于随机动态团队和游戏的分散 Q 学习算法，研究了其在包括团队问题在内的弱无环情况下的收敛性。

Jun, 2015

单智能体优化：通过蒙特卡罗树搜索进行策略迭代

本文提出了一种使用基于 Monte-Carlo Tree Search 和深度强化学习相结合的方法的搜索算法，通过 1）用于潜在无限奖励问题的新颖行动价值规范机制，2）定义虚拟损失函数实现有效搜索并行化，以及 3）由自我对弈逐代训练的策略网络引导搜索，来提高搜索算法的效果。我们在同类游戏 SameGame 上进行实验，结果表明我们的算法在多个游戏宽度上优于基准算法，并与公共状态搜索问题的最新算法竞争力相当。

May, 2020

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

多智能体强化学习下的动态避障无人机路径规划

我们提出了一种基于多智能体强化学习的新颖集中训练与分散执行方法，用于在线解决动态避障问题。改进方法采用模型预测控制的思想提高智能体的训练效率和样本利用率，并通过模拟、室内和室外环境的实验结果验证了方法的有效性。

Oct, 2023

多智能体团队中可迁移合作行为的学习

提出使用共享的代理 - 实体图来建模多智能体相互作用，并利用基于图的强化学习训练代理实现协作行为，实现了对多种任务的有效解决，并展示了其泛化能力。

Jun, 2019

众多战略代理系统中的分散式学习

我们提出了一种计算多智能体系统中闭环最优策略的方法，并证明了在拥有无限个智能体的系统中成功收敛到最优行为，而且我们的方法具有完全分散的特性，能够在经济和控制理论中的实际应用中收敛到纳什均衡策略。

Mar, 2018

分布式蒙特卡洛树搜索用于部分可观察多智体路径规划

我们提出了一种基于分布式多智能体蒙特卡罗树搜索方法的多智能体路径规划算法，通过利用智能体的观察结果重新创建内在的马尔科夫决策过程，并结合针对多智能体任务的定制化神经蒙特卡罗树搜索算法进行路径规划，实验证明该方法优于现有的学习型多智能体路径规划器。

Dec, 2023

合作多智体强化学习的共识学习

本研究提出了一种协作多智能体强化学习的共识学习方法，通过基于本地观察的共识学习，在分散式执行期间将推断出来的共识明确地作为智能体网络的输入，从而发展他们的合作精神，并在若干完全合作任务上获得了令人信服的结果。

Jun, 2022