联邦离线强化学习:协同单策略覆盖足够
该论文讨论了利用分布式数据进行在线学习时,采用联邦 Q 学习算法可以在不共享数据的情况下进行合作学习,提出了一种基于重要性加权的平均算法,加速了算法的收敛速度,降低了样本复杂度。
May, 2023
本文介绍了一种使用联邦学习平台上的分布式计算资源,基于集成学习方法开发的、名为 FEDORA 的算法,以解决联邦离线强化学习问题。我们展示了 FEDORA 在各种复杂的连续控制环境和真实世界数据集中明显优于其他方法,包括离线 RL 在合并数据池中,最终在移动机器人上演示了 FEDORA 的表现。
May, 2023
提出了一种通信高效的联合强化学习方法,该方法利用周期性聚合和压缩机制将本地代理的压缩估计聚合到一个中央服务器上,首次对这两种机制进行了有限时间分析,并在实验中验证了算法的收敛性行为。
Mar, 2024
本文提出了一种基于联邦学习的强化学习框架,使多方代理协作学习全局模型,同时保护个体数据隐私。对于联邦 TD 和 Q-learning 算法,我们证明了与代理数量成线性的收敛速度,这是首次考虑到马尔可夫噪声和多个本地更新的收敛分析。
Jun, 2022
在这篇论文中,我们考虑了联合强化学习用于表格式情节马尔可夫决策过程(MDP),在这种过程中,通过一个中央服务器的协调,多个代理协同探索环境并在不共享原始数据的情况下学习最优策略。我们提出了两种联合 Q 学习算法,分别称为 FedQ-Hoeffding 和 FedQ-Bernstein,并且证明了当时间范围足够大时,与单个代理对应的总后悔值可以实现线性加速,而通信成本在总时间步长 $T$ 中以对数方式进行扩展。这些结果依赖于代理和服务器之间的事件触发同步机制、服务器合并状态 - 动作值的局部估计形成全局估计时的新型步长选择,以及一组新的浓度不等式,用于限制非鞅差分的和。这是第一篇展示模型无关的联合强化学习算法可以实现线性后悔加速和对数通信成本的工作。
Dec, 2023
本论文提出了保守型 Q-learning(CQL),通过学习保守型 Q 函数以得到预期值,有效地解决了离线强化学习(offline RL)中的价值估计问题,从而提高了学习性能。在实验中,我们将 CQL 应用于复杂和多模态数据分布,证明其在离线 RL 方法中的优越性,能学习到比现有离线 RL 方法 2 到 5 倍更高的最终回报的策略
Jun, 2020
研究马尔可夫决策过程中的联合控制问题,介绍了多个学习代理的概念,使用名为联合 Q 协议(FedQ)的通信协议解决大状态空间下的 MDP,理论分析了 FedQ 协议的正确性和派生算法 FedQ-X 的样本复杂度,实验证明了方法的有效性。
May, 2024
提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法 LCB,在多臂赌博机、情境赌博机和马尔可夫决策过程中进行了有限样本性能研究,结果揭示了一些有关最优性率的令人惊讶的事实。
Mar, 2021
本文提出了一种基于聚合局部策略和双重稳健离线策略评估和学习策略的联邦策略学习算法,并针对异构数据源的观测数据情况,在不交换原始数据的情况下,在中央服务器上学习分布于异构数据源上的决策政策。
May, 2023
我们提出了一个新颖的多智能体离线强化学习算法,名为 CounterFactual Conservative Q-Learning (CFCQL),通过进行保守价值估计来缓解离线多智能体强化学习中行动分布偏移和高维问题的影响,并在多个环境中进行了实验验证。
Sep, 2023