离线多智能体强化学习的反事实保守 Q 学习

Sep, 2023

离线多智能体强化学习的反事实保守 Q 学习

Counterfactual Conservative Q Learning for Offline Multi-agent Reinforcement Learning

Jianzhun Shao, Yun Qu, Chen Chen, Hongchang Zhang, Xiangyang Ji

TL;DR我们提出了一个新颖的多智能体离线强化学习算法，名为 CounterFactual Conservative Q-Learning (CFCQL)，通过进行保守价值估计来缓解离线多智能体强化学习中行动分布偏移和高维问题的影响，并在多个环境中进行了实验验证。

Abstract

offline multi-agent reinforcement learning is challenging due to the coupling effect of both distribution shift issue common in offline setting and the high dimension issue common in multi-agent setting, making t

offline multi-agent reinforcement learning distribution shift high dimension counterfactual conservative q-learning value estimation

发现论文，激发创造

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

离线强化学习中的温和保守型 Q 学习

提出了一种保守但足够保证泛化性的离线学习算法 Mildly Conservative Q-learning (MCQ)，其中通过分配适当的伪 Q 值来积极地训练 OOD 动作，在 D4RL 数据集上实验结果表明 MCQ 相对于之前的工作取得了显着的性能提升和优异的泛化能力。

Jun, 2022

策略性保守型 Q 学习

提出了一种名为 Strategically Conservative Q-Learning (SCQ) 的新框架，用于解决离线强化学习中的逼近误差和分布外动作的问题，在 D4RL 基准任务上表现优于现有方法。

Jun, 2024

基于不确定性的离线强化学习与多样化 Q 集成

本文提出了一种基于不确定性的离线强化学习方法，考虑 Q 值预测的置信度，不需要对数据分布进行估计或抽样，并提出了一种集合多样化的演员 - 批评家算法，该算法在大多数 D4RL 基准测试中实现了最先进的性能。

Oct, 2021

联邦离线强化学习：协同单策略覆盖足够

通过将离线强化学习与联邦学习相结合，本文研究了联邦离线强化学习在有限时间段下的马尔可夫决策过程中的优势，设计了一种名为 FedLCB-Q 的变体算法，通过合作利用多个智能体的离线数据集实现了线性加速，并实现了与单智能体方法相当的样本复杂度，同时具备通信效率。

Feb, 2024

信其所见：离线多智能体强化学习的隐式约束方法

本文介绍了一种新的离线强化学习算法 ICQ，它通过只信任数据集中的状态 - 动作对来有效减轻外推误差，并将其扩展到多智能体任务中，表现出明显的性能优势。

Jun, 2021

离线强化学习的预算对比实验

本文提出了一种采用动态规划和固定点求解的方法，用以控制训练中的数据采样分布并改善数据利用效率，在 D4RL 数据集上表现优于其他已有方法的离线强化学习培训方式。

Jul, 2023

离线强化学习的置信度条件值函数

本文提出了一种新的学习价值函数的方法，即置信度条件价值函数。该方法能够在训练时对不同的保守程度进行学习，并在评估时动态地选择其中一种，以控制置信度水平。该方法可通过将现有算法的 Q 函数置信度化来实现，并能在任何期望的置信度下产生真实值的保守估计。实验结果表明该方法在多个离散控制领域中的性能优于现有的保守离线强化学习算法。

Dec, 2022

离线多智能体强化学习与耦合值因子分解

OMAC 是一种新的离线多智能体强化学习算法，采用耦合值分解方案将全局价值函数分解为本地和共享组件，并保持状态值和 Q 值函数之间的信用分配一致性，并在分解的本地状态值函数上执行样本内学习，同时避免由于评估分布外动作而引起的分布移位，基于综合评估离线多智能体 StarCraft II 微观管理任务，我们展示了 OMAC 比最先进的离线多智能体 RL 方法具有更优越的性能。

Jun, 2023

离线强化学习中的领域外适应性：通过因果规范化流进行反事实推理

通过因果推论而非策略正则化方法，本文提出了 MOOD-CRL（基于模型的线下 OOD 自适应因果强化学习）算法，旨在解决离线策略训练中的外推挑战。通过基于数据不变性、基于物理学的定性因果图和观测数据，我们开发了一种新的学习方案，以学习定量结构因果模型，从而赋予 CNF 预测和反事实推理能力，对顺序决策任务具有较高的 OOD 适应潜力。我们基于 CNF 的线下 RL 方法通过实证评估得到验证，明显优于无模型和基于模型的方法。

May, 2024