学习如何激励其他学习智能体

Jun, 2020

Learning to Incentivize Other Learning Agents

Jiachen Yang, Ang Li, Mehrdad Farajtabar, Peter Sunehag, Edward Hughes...

TL;DR本文提出了在多个智能体环境中，为每个RL 智能体提供直接向其它智能体给予奖励的能力，并通过学习后的激励函数影响其它智能体，从而达到协作的目的。实验结果显示，在 challenging general-sum Markov games 中，相对于标准RL和对手建模代理，这种方法在寻找最优的分工方面取得了巨大的成功。

Abstract

The challenge of developing powerful and general reinforcement learning (RL) agents has received increasing attention in recent years. Much of this effort has focused on the single-agent setting, in which an agent maximizes a predefined extrinsic reward function. However, a long-term q

发现论文，激发创造

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

通过奖励建模实现可扩展的智能体协调方向研究

本文阐述了设计适用于真实世界应用强化学习的奖励函数的难度、代理对齐问题的产生原因、以及基于奖励建模解决代理对齐问题的高层研究方向，并探讨了在实现奖励建模时可能面临的关键挑战和解决这些挑战的具体方法以及建立信任的方式。

Nov, 2018

多智能体强化学习中基于内在奖励的协调探索

该论文介绍了一种为多智能体设计内在奖励的框架，以促进协调探索，然后开发了一种方法来学习如何动态选择若干探索方式以最大化外在奖励。通过在具有稀疏奖励的合作域和需要改变协调模式的具有挑战性的多阶段任务中进行实验证明了该方法的有效性。

May, 2019

多智能体强化学习：理论和算法的选择性概述

本文在selective的视角下提供了多智能体强化学习领域的理论分析综述，重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果，并突出了MARL理论的几个新角度和分类，探讨了在学习博弈论、分散式多智能体、平均场与（非）收敛、多类型任务等方面的有前途的未来研究方向。

Nov, 2019

协作多智体强化学习的奖励机器

研究团队提出使用奖励机器（RM）对协作多智能体强化学习中的团队任务进行编码，分解任务成子任务分配给个体智能体去完成，提出一种分布式完成子任务的算法，提供了一种自然去中心化学习的方法，并在实验中验证了所提出的方法非常有效。

Jul, 2020

多智能体强化学习实现新兴社交学习

该论文研究在多智能体环境下，独立强化学习代理人是否可以学习使用社会学习来提高性能，并发现通过在训练环境中强加约束条件和引入基于模型的辅助损失，可以获得广义的社会学习策略，使代理人能够发现不是通过单个代理人训练获得的复杂技能并且通过从新环境的专家那里获取线索在线适应新环境。

Oct, 2020

多智能体强化学习中的学习学习策略梯度算法

本研究提出了一种新的元多智能体策略梯度定理，该定理直接考虑到多智能体学习环境中固有的非稳态策略动态，并通过建模梯度更新以考虑智能体自身的非稳态策略动态以及环境中其他代理的非稳态策略动态来达成。在多种多智能体基准测试中，我们的方法能够在全谱的混合激励、竞争和合作领域中比基线方法更有效地适应学习新的代理。

Oct, 2020

在强化学习中学习利他行为, 不依赖于外部奖励

提出一种无需外部监督从而学习利他行为的人工智能代理方法，该方法基于强化学习，通过给予其他代理更多的选择和帮助其达成更多状态来实现利他行为，能够在多种协作环境中表现出色。

Jul, 2021

V-Learning -- 多智能体强化学习的简单高效去中心化算法

使用新类别的分散式算法-V-learning解决了多智能体强化学习中联合行动空间指数级增长的问题，在有限态和操作情况下，能够学习Nash均衡、相关均衡和粗略相关均衡。

Oct, 2021

合作游戏的交互式逆强化学习

该研究探讨了如何设计自主智能体，使其在没有访问联合奖励函数的情况下能够有效地与潜在的次优合作伙伴进行合作。我们将这个问题建模为一个合作的、情节性的两个代理Markov决策过程。我们分析了该交互式两个代理场景中关于奖励函数的信息如何被获得，结果显示学习代理的策略对转移函数具有显著影响时，奖励函数可以被高效地学习。

Nov, 2021