最佳响应塑造

Apr, 2024

Best Response Shaping

Milad Aghajohari, Tim Cooijmans, Juan Agustin Duque, Shunichi Akatsuka, Aaron Courville

TL;DR在部分竞争环境中，我们研究了多智能体深度强化学习的挑战，传统方法难以促进基于互惠合作的行为。为解决现有技术中的局限性，我们提出了一种新的方法 —— 最佳回应塑造（BRS），通过对手的求解最佳回应进行差分学习。利用基于问题回答的方法提取智能体在特定环境状态下的行为表示，引入了一种能够对复杂博弈中的智能体策略进行状态感知可微的条件机制。通过实验证明了我们的方法在与蒙特卡洛树搜索对手（在 Coin Game 中近似最佳回应）对抗时具有更好的性能，从而拓展了部分竞争环境中多智能体强化学习的适用性，并为实现总和博弈中社会福利的改善提供了新的路径。

Abstract

We investigate the challenge of multi-agent deep reinforcement learning in partially competitive environments, where traditional methods struggle to foster →

multi-agent deep reinforcement learning reciprocity-based cooperation best response shaping monte carlo tree search partially competitive environments

发现论文，激发创造

可微分游戏中的稳定对手塑造

该论文提出了稳定对手塑造方法，该方法通过插值实现了区分对手学习（LOLA）和稳定对手塑造的最佳属性，并在可微分游戏中表现出卓越的性能。

Nov, 2018

最优策略迭代学习无压力外交

本文介绍了使用强化学习、策略迭代方法和博弈论等技术，以应对多智能体交互问题，从而在 7 人博弈 Diplomacy 中实现了前所未有的胜率提升，并取得与博弈论理论预测相一致的结果。

Jun, 2020

在博弈论强化学习中，结合树搜索、生成模型和纳什谈判概念

本文介绍了一种增强型多智能体系统训练框架 PSRO（Policy-Space Response Oracles），并通过添加一种新颖的搜索程序和生成抽样方法进行增强，进一步引入了基于 Nash 议价解的两种新元策略解决方法。在谈判博弈中进行的实验表明，这种方法能够成功地计算近似 Nash 平衡，并且可以产生与人类谈判相当的代理人。

Feb, 2023

单策略最佳响应下的迭代经验博弈求解

通过将经验博弈分析与深度强化学习相互交错，Policy-Space Response Oracles（PSRO）是一种用于学习多智能体系统中的策略的通用算法框架，其在每次迭代中使用深度强化学习来训练最佳响应，从而减少了模拟调整所需的计算量。我们介绍了两种 PSRO 的变体，旨在减少 Deep RL 训练期间需要的模拟量，分别是 Mixed-Oracles 和 Mixed-Opponents。这些算法在减少训练所需的模拟量的同时，实验证明产生了与游戏等价或更好的解决方案。

Jun, 2021

基于位势的奖励用于学习人形机械的运动能力评测

设计和调整奖励函数是发展有效强化学习（RL）流程的主要挑战之一。在这项研究中，我们使用潜在基础奖励塑造（PBRS）来加速学习收敛，在高维系统中，PBRS 对于收敛速度的提升有限，但是 PBRS 奖励项相对缩放更加稳健，更容易调整。

Jul, 2023

无模型对手塑形

本文提出了一种名为 Model-Free Opponent Shaping（M-FOS）的方法，利用元学习在长周期博弈下进行对手塑造，解决通过算法塑造对手进行博弈中的困境，实验表明该方法在训练中充分利用其他算法，达到了社会最优结果，同时还能扩展到高维博弈场景。

May, 2022

优势对准算法

人工智能代理、冲突、对手塑造、优势对齐和社会困境是该研究论文的主要关键词和研究领域，通过引入优势对齐方法，该论文证明了对手塑造方法的效果，并在不同情况下取得了最先进的结果。

Jun, 2024

分布式多智能体协作的对手建模层次强化学习

本文介绍了一种基于深度强化学习的多智能体协作方法，通过分布式学习实现了高效的策略搜索，并在合作变道场景中进行了仿真和实际案例验证。

Jun, 2022

引领先锋: N 人对手塑形

通过扩展对手塑形方法（OS）以适应涉及多个合作玩家和多个塑形代理的环境，我们评估了 4 个不同环境，并发现模型为基础的对手塑形方法相对于天真学习方法能够收敛到具有更好全局获益的均衡点，然而，当与大量合作玩家进行游戏时，对手塑形方法的相对性能会降低，这表明在极限情况下，对手塑形方法可能表现不佳，并且我们发现在需要大多数合作代理的游戏中，OS 方法收敛到全局福利较低的结果。

Dec, 2023

基于逻辑的奖励塑造多智能体强化学习

本研究探讨了基于逻辑的多智能体强化学习中的奖励设计问题，并提出了一种可扩展的半集中式逻辑奖励设计方法，以应对任务中多智能体数量增加的问题。

Jun, 2022