逆向多智体强化学习在集体行为中的个体奖励探究

May, 2023

逆向多智体强化学习在集体行为中的个体奖励探究

Discovering Individual Rewards in Collective Behavior through Inverse Multi-Agent Reinforcement Learning

Daniel Waelchli, Pascal Weber, Petros Koumoutsakos

TL;DR本研究提出了一种基于反强化学习和引导成本学习的离轨多智能体强化学习算法（IMARL），该算法可以解决复杂物理系统的集体动态问题，并在单智能体模型和多智能体模型下展现了优异的性能。

Abstract

The discovery of individual objectives in collective behavior of complex dynamical systems such as fish schools and bacteria colonies is a long-standing challenge. inverse reinforcement learning is a potent appro

inverse reinforcement learning multi-agent reinforcement learning collective behavior guided cost learning complex physical systems

发现论文，激发创造

多智能体对抗逆强化学习

本文提出了一种新的多智能体逆强化学习框架（MA-AIRL），有效地解决了高维空间和未知动态的马尔科夫博弈问题，并展示了在策略模仿方面，MA-AIRL 显著优于现有方法。

Jul, 2019

多智能体强化学习的统一博弈论方法

本文提出了一种基于深度强化学习的近似最佳响应策略混合和实证博弈理论分析的算法，用以解决多智能体强化学习中独立强化学习过度拟合其他智能体政策的问题，并且在网格世界协调游戏和扑克牌等部分可观察环境中取得了不错的结果.

Nov, 2017

群体系统中的逆强化学习

本文提出了一种基于 SwarMDP 框架的针对分布式多智能体相互作用的逆向强化学习算法，在该框架中，我们证明了与智能体相关的值函数相等，通过引入一种新异构学习策略，我们证明了该框架能够有效地产生有意义的本地奖励模型。

Feb, 2016

针对限价订单簿动态的逆强化学习研究

本研究探讨了 IRL 是否能从金融随机环境（LOB）中的代理中推断出奖励，并使用先前的线性和高斯过程回归器以及自己的方法通过贝叶斯神经网络（BNN）来模拟其潜在奖励函数，说明非线性奖励函数产生的复杂行为可以通过推断来推断。

Jun, 2019

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成 MDP 和转移学习任务上都得到了改进。

Apr, 2016

混合信息驱动多智能体强化学习

利用信息理论模型作为启发式算法来帮助大规模稀疏状态的代理系统寻找高级策略的混合信息驱动多代理强化学习（MARL）方法被提出和研究。通过初步实验结果表明，这一方法可以使代理系统在探索稀疏状态空间方面获得高达三个数量级的有效性提升。

Feb, 2021

多智能体强化学习介绍及其在自主移动中的应用综述

该论文介绍了多智能体强化学习在自主移动中的应用，包括行为规划、车辆之间通信、性能提升等方面，并探讨了该领域的一些最新方法和想法。

Mar, 2022

使用多智能体强化学习对隐藏角色随机博弈中的模糊身份进行分类

本文提出了一种基于身份检测的增强学习框架，该框架允许智能体动态推断附近智能体的身份并选择适当的策略完成任务，通过实验表明，该方法在红十卡牌放置游戏中取得了超越其他最先进 MARL 方法的优异表现。

Oct, 2022

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023

逆因子化 Q-Learning 用于合作多智能体模仿学习

该论文提出了一种针对合作多智能体系统的新颖多智能体模仿学习算法，通过使用混合网络聚合分散的 Q 函数，实现了集中式学习，并在具有高度挑战性的竞争性和合作性多智能体游戏环境中进行了广泛实验，表明该算法相对于现有的多智能体模仿学习算法具有显著的有效性。

Oct, 2023