具有拜占庭容错和证明快速收敛性的分散联邦策略梯度

Jan, 2024

具有拜占庭容错和证明快速收敛性的分散联邦策略梯度

Decentralized Federated Policy Gradient with Byzantine Fault-Tolerance and Provably Fast Convergence

Philip Jordan, Florian Grötschla, Flint Xiaofeng Fan, Roger Wattenhofer

TL;DR分布式强化学习中，我们提出了第一种去中心化的拜占庭容错方法，通过结合强大的聚合和拜占庭容错协议来降低对受信任中央实体的需求，实验结果表明其对参与代理数量的加速和抵抗不同拜占庭攻击具有可靠性。

Abstract

In federated reinforcement learning (FRL), agents aim to collaboratively learn a common task, while each agent is acting in its local environment without exchanging raw trajectories. Existing approaches for FRL either (a) do not provide any fault-tolerance guarantees (against misbehavi

federated reinforcement learning byzantine fault-tolerant decentralized aggregation resilience

发现论文，激发创造

联合策略梯度方法在存在对手情况下的全局收敛保证

在 Federated Reinforcement Learning 中，我们提出了一种基于策略梯度的方法，能够在存在对抗性代理的情况下，实现全局收敛性保证，并具有较低的样本复杂度。

Mar, 2024

联邦自然策略梯度方法用于多任务强化学习

多任务情境下的联邦强化学习，通过策略优化实现分布式决策，并建立了全局收敛性保证。

Nov, 2023

实用的差分隐私和拜占庭容错联邦学习

本文提出了一种解决联邦学习中隐私和拜占庭容错性的算法，通过使用差分隐私随机梯度下降算法保护隐私，并应用拜占庭容错算法，最终实现高精度和拜占庭攻击的抵抗。

Apr, 2023

拜占庭攻击鲁棒的联邦学习：实现零最优间隙

本文提出了一种强大的聚合方法，用于联邦学习，可以有效地应对恶意拜占庭攻击，每个用户可以通过多个步骤来更新模型参数，然后将其直接推送到聚合中心，聚合中心利用几何中位数将用户的模型参数进行组合，并通过严格的证明表明，只要恶意攻击者的比例低于一半，我们提出的方法可以达到零最优间隔，并呈线性收敛性。数值结果验证了我们提出方法的有效性。

Aug, 2023

拜占庭鲁棒联邦线性赌博机

研究在联邦学习环境下的线性赌博机优化问题，提出一个具有鲁棒聚合神谕的新算法，证明该算法对少于一半的代理进行拜占庭攻击是鲁棒的，并通过基于树的机制使算法具有差分隐私。如果已知污染程度较小，则使用平均几何中位数神谕来进行鲁棒聚合进一步改善遗憾界。

Apr, 2022

点对点分布式梯度下降中的拜占庭容错

本文研究了使用委比丘密特容错处理方式解决点对点分布式梯度下降算法中存在的非诚实代理引起的优化问题，提出了一种能够保证容错性的机制并可应用于更高维度的凸分布式优化问题。

Jan, 2021

异步联邦强化学习策略梯度更新：算法设计与收敛分析

为了提高强化学习的效率，我们提出了一个名为 AFedPG 的新型异步联邦强化学习框架，通过使用策略梯度（PG）更新在 N 个智能体之间进行协作来构建全局模型。我们设计了延迟自适应预测和归一化更新技术来处理异步环境中滞后策略的挑战，并分析了 AFedPG 的理论全局收敛界限，以及在样本复杂度和时间复杂度方面的优势。最后，我们在三个 MuJoCo 环境中通过实证验证了 AFedPG 的改进性能，并展示了不同计算异质性下的改进效果。

Apr, 2024

边缘拜占庭容错联邦学习

本文研究边缘联邦学习中的随机凸和非凸优化问题，以解决处理重尾数据时现有算法的不足，并同时保持拜占庭鲁棒性，通信效率和最佳统计误差率。我们提出了两种算法，分别是具有拜占庭鲁棒性的分布式梯度下降算法，以及结合梯度压缩技术的通信开销较小的算法。理论分析表明，我们的算法在存在拜占庭设备的情况下实现了最优的统计误差率。最后，我们在合成和现实世界数据集上进行了广泛的实验，以验证算法的有效性。

Mar, 2023

BRFL: 基于区块链的拜占庭容错型联邦学习模型

基于区块链的拜占庭 - 稳健联邦学习 (BRLF) 模型通过与区块链技术的结合，解决了联邦学习中的资源消耗问题，并在公共数据集上验证了我们安全聚合算法相对于其他基线算法在抗拜占庭攻击方面的优越性，证明了我们提出的模型的有效性。

Oct, 2023

拜占庭稳健的分散式联邦学习

我们提出了一种名为 BALANCE 的新算法，通过本地相似性在去中心化中进行拜占庭 - 鲁棒的均值计算，以抵御毒化攻击，并在强凸和非凸设置中建立了 BALANCE 在毒化攻击下的理论收敛保证，大量实验证明 BALANCE 优于现有的分布式联邦学习方法并有效地抵御毒化攻击。

Jun, 2024