联邦离线强化学习：协同单策略覆盖足够

Feb, 2024

联邦离线强化学习：协同单策略覆盖足够

Federated Offline Reinforcement Learning: Collaborative Single-Policy Coverage Suffices

Jiin Woo, Laixi Shi, Gauri Joshi, Yuejie Chi

TL;DR通过将离线强化学习与联邦学习相结合，本文研究了联邦离线强化学习在有限时间段下的马尔可夫决策过程中的优势，设计了一种名为 FedLCB-Q 的变体算法，通过合作利用多个智能体的离线数据集实现了线性加速，并实现了与单智能体方法相当的样本复杂度，同时具备通信效率。

Abstract

offline reinforcement learning (RL), which seeks to learn an optimal policy using offline data, has garnered significant interest due to its potential in critical applications where online data collection is infeasible or expensive. This work explores the benefit of →

offline reinforcement learning federated learning q-learning sample complexity analysis communication-efficient

发现论文，激发创造

联邦 Q 学习中异构的优点：线性加速及其它

该论文讨论了利用分布式数据进行在线学习时，采用联邦 Q 学习算法可以在不共享数据的情况下进行合作学习，提出了一种基于重要性加权的平均算法，加速了算法的收敛速度，降低了样本复杂度。

May, 2023

联邦式集合指导下的离线强化学习

本文介绍了一种使用联邦学习平台上的分布式计算资源，基于集成学习方法开发的、名为 FEDORA 的算法，以解决联邦离线强化学习问题。我们展示了 FEDORA 在各种复杂的连续控制环境和真实世界数据集中明显优于其他方法，包括离线 RL 在合并数据池中，最终在移动机器人上演示了 FEDORA 的表现。

May, 2023

带有生成模型的压缩联邦强化学习

提出了一种通信高效的联合强化学习方法，该方法利用周期性聚合和压缩机制将本地代理的压缩估计聚合到一个中央服务器上，首次对这两种机制进行了有限时间分析，并在实验中验证了算法的收敛性行为。

Mar, 2024

联邦强化学习：马尔可夫采样下的线性加速

本文提出了一种基于联邦学习的强化学习框架，使多方代理协作学习全局模型，同时保护个体数据隐私。对于联邦 TD 和 Q-learning 算法，我们证明了与代理数量成线性的收敛速度，这是首次考虑到马尔可夫噪声和多个本地更新的收敛分析。

Jun, 2022

联邦 Q-Learning：线性遗憾加速与低通信成本

在这篇论文中，我们考虑了联合强化学习用于表格式情节马尔可夫决策过程（MDP），在这种过程中，通过一个中央服务器的协调，多个代理协同探索环境并在不共享原始数据的情况下学习最优策略。我们提出了两种联合 Q 学习算法，分别称为 FedQ-Hoeffding 和 FedQ-Bernstein，并且证明了当时间范围足够大时，与单个代理对应的总后悔值可以实现线性加速，而通信成本在总时间步长 $T$ 中以对数方式进行扩展。这些结果依赖于代理和服务器之间的事件触发同步机制、服务器合并状态 - 动作值的局部估计形成全局估计时的新型步长选择，以及一组新的浓度不等式，用于限制非鞅差分的和。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。

Dec, 2023

离线强化学习的保守型 Q 学习

本论文提出了保守型 Q-learning（CQL），通过学习保守型 Q 函数以得到预期值，有效地解决了离线强化学习（offline RL）中的价值估计问题，从而提高了学习性能。在实验中，我们将 CQL 应用于复杂和多模态数据分布，证明其在离线 RL 方法中的优越性，能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略

Jun, 2020

马尔可夫决策过程中的联邦控制

研究马尔可夫决策过程中的联合控制问题，介绍了多个学习代理的概念，使用名为联合 Q 协议（FedQ）的通信协议解决大状态空间下的 MDP，理论分析了 FedQ 协议的正确性和派生算法 FedQ-X 的样本复杂度，实验证明了方法的有效性。

May, 2024

离线强化学习和模仿学习的联系：一则悲观的故事

提出了一种新的离线强化学习框架，将模仿学习和通用离线强化学习相结合，中心思想是测量从行为策略到专家策略的偏差，进一步研究了针对未知数据分布下的算法设计问题，提出了一种基于悲观策略的下限置信度算法 LCB，在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究，结果揭示了一些有关最优性率的令人惊讶的事实。

Mar, 2021

具有异构观测数据的联邦离线策略学习

本文提出了一种基于聚合局部策略和双重稳健离线策略评估和学习策略的联邦策略学习算法，并针对异构数据源的观测数据情况，在不交换原始数据的情况下，在中央服务器上学习分布于异构数据源上的决策政策。

May, 2023

离线多智能体强化学习的反事实保守 Q 学习

我们提出了一个新颖的多智能体离线强化学习算法，名为 CounterFactual Conservative Q-Learning (CFCQL)，通过进行保守价值估计来缓解离线多智能体强化学习中行动分布偏移和高维问题的影响，并在多个环境中进行了实验验证。

Sep, 2023