自适应即时策略对接

Mar, 2022

On-the-fly Strategy Adaptation for ad-hoc Agent Coordination

Jaleh Zand, Jack Parker-Holder, Stephen J. Roberts

TL;DR本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题，以实现智能体对人类和其他智能体的有效交互，并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。

Abstract

Training agents in cooperative settings offers the promise of AI agents able to interact effectively with humans (and other agents) in the real world. multi-agent reinforcement learning (MARL) has the potential t

multi-agent reinforcement learning cooperative settings adapting agent strategies gibbs sampling ad-hoc coordination

发现论文，激发创造

离线多智能体强化学习协调问题的基于模型的解决方案

该研究针对现有离线多智能体强化学习算法在协作中存在的问题进行研究，并提出了一种基于模型的离线多智能体近端策略优化算法（MOMA-PPO），利用合成的交互数据帮助智能体在策略调整中更好地协调，成功解决了现有算法在多智能体任务中出现的协作问题。

May, 2023

零样本协调的 “其他 - 玩耍

本文探讨了如何通过使用 other-play 算法增强 self-play 算法，以解决在多智能体协同环境中遇到未知合作伙伴时的问题，并以 Hanabi 卡牌游戏为例展示了该算法的实验结果。

Mar, 2020

走向小样本协同：重新审视《汉尼拔》游戏中的即兴团队配合挑战

合作式多智能体强化学习与零样本协同在近年来引起了极大的关注。本文通过构建一个基于合作多智能体游戏 Hanabi 的框架，在使用最新零样本协同算法时探究了多智能体强化学习方法的适应性，并发现在大多数情况下，顺序独立强化学习代理（IQL）与最新的零样本协同算法 Off-Belief Learning（OBL）相比，在适应性上表现相似。这一发现引发了一个有趣的研究问题：如何设计具有高零样本协同性能和快速适应未知伙伴的多智能体强化学习算法。通过研究不同超参数和设计选择对当前多智能体强化学习算法的适应性的作用，我们的实验表明，控制训练数据多样性和优化过程的两类超参数对 Hanabi 代理的适应性具有重要影响。

Aug, 2023

目标足够：在 IMFs 中诱发未知多智体系统的无约束合作

通过使用 AI-based supervisor agent，我们提出了一种框架，可以并行地编排预训练的 agent，该框架通过为 MARL 代理分配最佳目标并激励它们展示特定的期望行为来实现。在网络仿真器上的结果显示，与基于规则的方法相比，所提出的方法在更快和更好地实现期望的同时，甚至推广到环境变化。

Oct, 2023

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

具有动态参与智能体的可转移的多智能体强化学习

本研究提出一种具有 Few-shot Learning 算法的网络架构，允许在集中式训练期间代理的数量变化，这可以使新代理的模型适应速度比基线模型快 100 多倍。

Aug, 2022

通过任务不可知通信来推广多智能体协作

现有合作多机器人问题中的多智能体强化学习通信方法几乎全部是特定任务的，我们通过引入一种适用于给定环境中的任何任务的通信策略，解决了这种低效的问题。我们以一种自我监督的方式，使用一组自动编码器在没有特定任务奖励指导的情况下预训练通信策略，目标是从可变数量的智能体观察中学习一个固定大小的潜在马尔可夫状态。在温和的假设下，我们证明了使用我们的潜在表示的策略必定收敛，并上界了我们的马尔可夫状态近似引入的值误差。我们的方法使得无需微调通信策略即可无缝适应新任务，在训练期间支持更多智能体的扩展，并且能够检测环境中的异常事件。对不同的多智能体强化学习场景的实证结果验证了我们方法的有效性，在未知任务中优于特定任务的通信策略。

Mar, 2024

具有新兴通讯的网络多智能体强化学习

本研究使用紧密联系的智能体通过互相交流离散符号彼此合作完成任务。通过分析他们之间的交流，证明了他们发展的语言与网络拓扑有关，并在交通控制器问题上实现了最先进的性能。

Apr, 2020

基于情景无关表征实现多智能体迁移强化学习

通过将各种状态空间统一为固定大小的输入，以便在 MAS 中的不同场景中使用一种统一的深度学习策略，我们介绍了一种新的框架，使得多智能体强化学习能够进行迁移学习。在 StarCraft Multi-Agent Challenge（SMAC）环境中，通过从其他场景学习到的机动技能，相比于从头学习的智能体，我们的方法在多智能体学习性能方面取得了显著的提升。此外，通过采用课程式迁移学习（CTL），使我们的深度学习策略逐步获取各个预先设计的同质学习场景中的知识和技能，促进智能体之间和智能体内部的知识传递，从而在更复杂的异质场景中实现高水平的多智能体学习性能。

Feb, 2024

通过观察自我对弈增强学习现有社会惯例

研究了在协调博弈中，人工智能代理人如何通过多智能体强化学习和模仿学习来优化策略以满足现有社交约定。结果表明，使用少量模仿学习可以显著提高多智能体强化学习找到与现有社交约定相符的策略的概率。

Jun, 2018