基于双规范化的联邦离线策略优化

MMMay, 2024

基于双规范化的联邦离线策略优化

Federated Offline Policy Optimization with Dual Regularization

Sheng Yue, Zerui Qin, Xingyuan Hua, Yongheng Deng, Ju Ren

TL;DR提出了一种名为 DRPO 的离线联邦策略优化算法，通过使用双重正则化来解决离线联邦强化学习中的两级分布变化问题，实现了分布式智能决策的显著性能提升。

Abstract

federated reinforcement learning (FRL) has been deemed as a promising solution for intelligent decision-making in the era of Artificial Internet of Things. However, existing FRL approaches often entail repeated interactions with the environment during local updating, which can be prohi

federated reinforcement learning offline federated policy optimization drpo dual regularization distributional shifts

发现论文，激发创造

联邦式集合指导下的离线强化学习

本文介绍了一种使用联邦学习平台上的分布式计算资源，基于集成学习方法开发的、名为 FEDORA 的算法，以解决联邦离线强化学习问题。我们展示了 FEDORA 在各种复杂的连续控制环境和真实世界数据集中明显优于其他方法，包括离线 RL 在合并数据池中，最终在移动机器人上演示了 FEDORA 的表现。

May, 2023

具约束异构的联邦强化学习

我们研究了具有约束异构性的联邦强化学习（FedRL）问题，通过多个智能体在不同环境下协同学习，解决具有多个约束的强化学习问题，并提出了基于传统策略梯度方法的联邦原始 - 对偶策略优化方法，其中我们关注的两种算法为 FedNPG 和 FedPPO，通过使用深度神经网络，FedPPO 有效地解决了复杂的学习任务。

May, 2024

基于动量的联邦强化学习与交互沟通效率

Federated Reinforcement Learning (FRL) algorithm, MFPO, enhances data utilization by controlling policy gradients using momentum and importance sampling, achieving efficient interaction and communication complexities with performance gains over existing methods.

May, 2024

联邦深度强化学习

本文提出了一种新的深度强化学习框架 FedRL，旨在联邦地建立高质量的代理模型，其中考虑到其隐私，并通过利用高斯微分来保护数据和模型的隐私。在 Grid-world 和 Text2Action 领域的实验中，该框架与各种基线模型进行了比较。

Jan, 2019

DPO: 差分强化学习及其在最优配置搜索中的应用

提出了第一个可以处理拥有有限训练样本和较短长度回合的差分强化学习框架，命名为差分策略优化（DPO）。DPO 是一种点对点和阶段对阶段迭代方法，通过本地运动算子编码的策略进行优化，具有可扩展性，且在基准实验中与几种流行的强化学习方法相比展现出有竞争力的结果。

Apr, 2024

具有异构观测数据的联邦离线策略学习

本文提出了一种基于聚合局部策略和双重稳健离线策略评估和学习策略的联邦策略学习算法，并针对异构数据源的观测数据情况，在不交换原始数据的情况下，在中央服务器上学习分布于异构数据源上的决策政策。

May, 2023

强化学习在数据集重置策略优化中的应用

通过借用重置的概念，利用离线偏好数据集提供的信息状态，我们提出了一种具有可证明保证性的新型 RLHF 算法 DR-PO，该算法将离线偏好数据集集成到在线策略训练过程中，并通过数据集重置来优化策略优化器，以获得比 PPO 和 DPO 更好的生成性能，实验证明 DR-PO 在 GPT4 胜率指标下表现优秀。

Apr, 2024

联邦离线强化学习：协同单策略覆盖足够

通过将离线强化学习与联邦学习相结合，本文研究了联邦离线强化学习在有限时间段下的马尔可夫决策过程中的优势，设计了一种名为 FedLCB-Q 的变体算法，通过合作利用多个智能体的离线数据集实现了线性加速，并实现了与单智能体方法相当的样本复杂度，同时具备通信效率。

Feb, 2024

行为近端策略优化

本文通过对线下单调策略改进的分析得出有趣结论，即一些在线策略算法天生就能解决离线 RL 问题，而 Behavior Proximal Policy Optimization (BPPO) 正是基于这个结论提出的，无需额外约束或正则化就能在 D4RL 基准测试中超越最先进的线下 RL 算法。

Feb, 2023

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022