将数据置于离线多智能体强化学习的中心
本文在selective的视角下提供了多智能体强化学习领域的理论分析综述,重点关注Markov/stochastic games和extensive-form games框架下的MARL算法的理论结果,并突出了MARL理论的几个新角度和分类,探讨了在学习博弈论、分散式多智能体、平均场与(非)收敛、多类型任务等方面的有前途的未来研究方向。
Nov, 2019
本研究为解决离线情境下强化学习(RL)的挑战,特意设计离线RL的基准测试任务,指导现实世界中数据集集合的设计与收集,并在开源代码上进行了综合评估,以便研究人员能够进一步完善现有算法及在这一新兴领域展开合作与探索。
Apr, 2020
此研究聚焦于离线强化学习,重点是离线学习方法的数据集属性和离线方法的成功相关性,实验证明离线RL的多样性和高回报的例子对于成功至关重要,并表明行为克隆仍然是竞争对手。
Nov, 2020
介绍了多任务离线强化学习中数据共享中所面对的分布移位与性能问题,并提出了一种保守数据共享的方法,应用于单任务离线强化学习,取得了在多项挑战性多任务机器人控制问题中最佳或相当的性能。
Sep, 2021
本文考虑了具有线性结构的MDPs的FineTuneRL设置,并开发了一种称为FTPedel的算法,用于结合脱机数据和在线RL以改进学习表现,结果证明了在线样本数的必要性以及在线RL和脱机数据结合的优越性,突出了在线RL和脱机RL之间的区别。
Nov, 2022
该研究为填补离线多智能体强化学习(MARL)领域中缺乏标准基准和评估方法的空白,提出了一个名为OG-MARL的离线MARL数据集和算法框架,包括一套标准评估方案。OG-MARL的数据集本质上是从在线MARL基准中生成的,具有复杂的动态、非静态性、局部可观察性、次优性和稀疏奖励等特征。
Feb, 2023
本研究提出了一种简单的方法,利用离线数据来解决在线强化学习中的效率和探索性问题,通过对现有离线策略学习算法进行改进,得出了可以在各种竞争对手的基准测试中比现有方法提高2.5倍的建议。
Feb, 2023
AlberDICE是一种离线多智能体强化学习算法,通过交替进行集中培训和避免选择分布超出参考数据的联合行动,有效地解决了离线多智能体强化学习中的分布偏移问题。
Nov, 2023
离线多智能体强化学习(MARL)是一个备受期待的新兴领域,然而,当前离线MARL研究存在基准和评估协议的不一致性问题,这使得准确评估进展、信任新提出的创新以及研究人员在前人工作上构建变得困难。本文首先通过代表性的离线MARL研究,确认了现有方法测量新算法性能的显著缺陷。其次,通过与这些前人工作的直接比较,我们展示了简单、良好实施的基准方法能够在各种任务中达到最新水平结果。具体而言,在前人工作中的47个数据集中的35个(约占75%)中,我们达到或超越了当前号称的最优结果。令人惊讶的是,我们的基准方法通常远远优于这些更复杂的算法。最后,我们通过引入简便易行的评估标准方法并提供基准实现的具有统计学可靠性的结果,纠正了这些前人工作中的缺陷,并为未来的比较研究提供了有用的参考。我们的提议包括简单、合理易行的步骤,结合可靠的基准和对比结果,可能会大大提高离线MARL的实证科学水平。
Jun, 2024
离线多智体强化学习通过静态经验数据集来学习最优的多智体控制,但从静态数据中进行学习面临一些独特的挑战。本文聚焦于协调失败问题,并研究了在离线数据中联合动作在多智体策略梯度方法中的作用,提出了一种基于数据的'最佳响应'方法,并通过分析工具二人多项式博弈展示了该方法存在的简单但被忽视的故障模式,该故障模式可能导致离线环境中的彻底协调失败。基于这些见解,我们提出了一种缓解此类故障的方法,通过优先选择具有联合动作相似性的样本来进行策略学习,并在详细实验中展示了其有效性。然而,我们认为基于优先选择的数据集采样是离线多智体强化学习中一个具有创新潜力的领域,可以与其他有效方法(例如评论家和策略规则化)相结合。重要的是,我们的工作展示了从简化、可追踪的游戏中得出的见解如何转化为对更复杂环境有用的理论基础见解。本项目提供一个交互式笔记本,几乎可以在浏览器中复现出我们的所有结果。
Jul, 2024