将数据置于离线多智能体强化学习的中心

Sep, 2024

将数据置于离线多智能体强化学习的中心

Putting Data at the Centre of Offline Multi-Agent Reinforcement Learning

Claude Formanek, Louise Beyers, Callum Rhys Tilbury, Jonathan P. Shock, Arnu Pretorius

TL;DR本研究针对离线多智能体强化学习领域中数据使用不足的问题，突出数据特性的忽视带来的挑战。作者提出了三项关键贡献：生成新数据集的明确指南、80多个现有数据集的标准化以及一套分析工具，以提升数据使用和意识。这些工作为未来的研究提供了坚实基础，可能显著推动相关领域的发展。

Abstract

Offline multi-agent Reinforcement Learning (MARL) is an exciting direction of research that uses static datasets to find optimal control policies for Multi-Agent Systems. Though the field is by definition data-dr

发现论文，激发创造

多智能体强化学习：理论和算法的选择性概述

本文在selective的视角下提供了多智能体强化学习领域的理论分析综述，重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果，并突出了MARL理论的几个新角度和分类，探讨了在学习博弈论、分散式多智能体、平均场与（非）收敛、多类型任务等方面的有前途的未来研究方向。

Nov, 2019

D4RL：深度数据驱动强化学习数据集

本研究为解决离线情境下强化学习（RL）的挑战，特意设计离线RL的基准测试任务，指导现实世界中数据集集合的设计与收集，并在开源代码上进行了综合评估，以便研究人员能够进一步完善现有算法及在这一新兴领域展开合作与探索。

Apr, 2020

离线强化学习实践

此研究聚焦于离线强化学习，重点是离线学习方法的数据集属性和离线方法的成功相关性，实验证明离线RL的多样性和高回报的例子对于成功至关重要，并表明行为克隆仍然是竞争对手。

Nov, 2020

面向多任务离线强化学习的保守数据共享

介绍了多任务离线强化学习中数据共享中所面对的分布移位与性能问题，并提出了一种保守数据共享的方法，应用于单任务离线强化学习，取得了在多项挑战性多任务机器人控制问题中最佳或相当的性能。

Sep, 2021

利用离线数据进行在线强化学习

本文考虑了具有线性结构的MDPs的FineTuneRL设置，并开发了一种称为FTPedel的算法，用于结合脱机数据和在线RL以改进学习表现，结果证明了在线样本数的必要性以及在线RL和脱机数据结合的优越性，突出了在线RL和脱机RL之间的区别。

Nov, 2022

离网 MARL: 一个数据集生成框架，具备合作离线多智能体强化学习基线

该研究为填补离线多智能体强化学习（MARL）领域中缺乏标准基准和评估方法的空白，提出了一个名为OG-MARL的离线MARL数据集和算法框架，包括一套标准评估方案。OG-MARL的数据集本质上是从在线MARL基准中生成的，具有复杂的动态、非静态性、局部可观察性、次优性和稀疏奖励等特征。

Feb, 2023

使用离线数据进行高效在线强化学习

本研究提出了一种简单的方法，利用离线数据来解决在线强化学习中的效率和探索性问题，通过对现有离线策略学习算法进行改进，得出了可以在各种竞争对手的基准测试中比现有方法提高2.5倍的建议。

Feb, 2023

AlberDICE: 通过交替稳定分布校正估计解决离线多智能体强化学习中的分布外联合动作

AlberDICE是一种离线多智能体强化学习算法，通过交替进行集中培训和避免选择分布超出参考数据的联合行动，有效地解决了离线多智能体强化学习中的分布偏移问题。

Nov, 2023

通过标准基线和评估披露离线多智体增强学习中进展的幻觉

离线多智能体强化学习（MARL）是一个备受期待的新兴领域，然而，当前离线MARL研究存在基准和评估协议的不一致性问题，这使得准确评估进展、信任新提出的创新以及研究人员在前人工作上构建变得困难。本文首先通过代表性的离线MARL研究，确认了现有方法测量新算法性能的显著缺陷。其次，通过与这些前人工作的直接比较，我们展示了简单、良好实施的基准方法能够在各种任务中达到最新水平结果。具体而言，在前人工作中的47个数据集中的35个（约占75%）中，我们达到或超越了当前号称的最优结果。令人惊讶的是，我们的基准方法通常远远优于这些更复杂的算法。最后，我们通过引入简便易行的评估标准方法并提供基准实现的具有统计学可靠性的结果，纠正了这些前人工作中的缺陷，并为未来的比较研究提供了有用的参考。我们的提议包括简单、合理易行的步骤，结合可靠的基准和对比结果，可能会大大提高离线MARL的实证科学水平。

Jun, 2024

合作离线多智能体强化学习中的协调失败

离线多智体强化学习通过静态经验数据集来学习最优的多智体控制，但从静态数据中进行学习面临一些独特的挑战。本文聚焦于协调失败问题，并研究了在离线数据中联合动作在多智体策略梯度方法中的作用，提出了一种基于数据的'最佳响应'方法，并通过分析工具二人多项式博弈展示了该方法存在的简单但被忽视的故障模式，该故障模式可能导致离线环境中的彻底协调失败。基于这些见解，我们提出了一种缓解此类故障的方法，通过优先选择具有联合动作相似性的样本来进行策略学习，并在详细实验中展示了其有效性。然而，我们认为基于优先选择的数据集采样是离线多智体强化学习中一个具有创新潜力的领域，可以与其他有效方法（例如评论家和策略规则化）相结合。重要的是，我们的工作展示了从简化、可追踪的游戏中得出的见解如何转化为对更复杂环境有用的理论基础见解。本项目提供一个交互式笔记本，几乎可以在浏览器中复现出我们的所有结果。

Jul, 2024