针对环境异质性的联邦策略优化中的客户端选择

May, 2023

针对环境异质性的联邦策略优化中的客户端选择

Client Selection for Federated Policy Optimization with Environment Heterogeneity

Zhijie Xie, S.H. Song

TL;DR本论文探索了近似策略迭代（API）在联邦学习中的应用，引入了客户端选择算法来解决环境异质性带来的估计误差，理论和实验结果表明该算法可以在联邦学习中显著降低估计误差。

Abstract

The development of policy iteration (PI) has inspired many recent algorithms for reinforcement learning (RL), including several policy gradient methods, that gained both theoretical soundness and empirical succes

policy iteration reinforcement learning centralized learning federated learning client selection

发现论文，激发创造

具有异构观测数据的联邦离线策略学习

本文提出了一种基于聚合局部策略和双重稳健离线策略评估和学习策略的联邦策略学习算法，并针对异构数据源的观测数据情况，在不交换原始数据的情况下，在中央服务器上学习分布于异构数据源上的决策政策。

May, 2023

联邦设置中的近最优差分隐私客户选择

我们在联邦环境中开发了一种迭代的差分隐私算法，用于客户端选择。该算法提供接近最优的值给客户端，以实现长期平均参与，并提供一定的差分隐私保证，而无需客户端之间的信息交换。

Oct, 2023

联邦学习中的客户端选择：收敛分析和选择策略

本文研究了在偏置客户端选择策略下的联邦学习的收敛性，并量化了选择偏差对收敛速度的影响。作者提出了 Power-of-Choice 这个通信和计算效率高的客户端选择框架，能够在收敛速度和解决方案偏差之间灵活地平衡。实验证明使用 Power-of-Choice 策略收敛速度可提高至多 3 倍，测试准确度可提高 10％，相比随机选择基线有明显的提高。

Oct, 2020

胜利的势头：异构环境下的协作联邦强化学习

我们提出了两个算法：FedSVRPG-M 和 FedHAPG-M，通过利用动量机制，不论环境异质性的大小，两个算法都可以精确收敛到平均性能函数的一个稳定点，进一步结合方差降低技术或海森矩阵近似，两个算法均达到了最新的收敛结果，其采样复杂度为 O (epsilon^(-3/2)/N)，同时我们的算法线性加速了收敛速度，并突显了在找到共同策略中代理之间合作的好处。

May, 2024

模拟全客户参与：联邦学习的长期客户选择策略

通过最小化客户子集与完整客户集之间的梯度空间估计误差，我们提出了一种旨在模拟完整客户参与下性能的新型客户选择策略，并引入了一种新颖的个体公平约束，以确保具有类似数据分布的客户具有类似的被选择频率，从长期的角度指导客户选择过程。我们利用 Lyapunov 优化和子模函数高效地识别出最佳客户子集，并对收敛能力进行了理论分析。实验结果表明，与先前方法相比，所提出的策略在提高准确性和公平性的同时，还以最小的时间开销显示出高效性。

May, 2024

贪心 Shapley 客户选择用于通信高效的联邦学习

发展了一种被称为 GreedyFed 的具有偏见的客户选择策略，它能够在固定的通信轮次内，在数据分布、系统限制和隐私要求的高度异质性条件下，实现快速而稳定的收敛，并获得高准确性。

Dec, 2023

带政策语言偏差的近似策略迭代：解决关系马尔可夫决策过程

研究大规模关系型马尔科夫决策过程（MDP）的政策选择方法，考虑一种近似政策迭代（API）的变体，用学习步骤在政策空间中替换通常的值函数学习步骤，介绍一个关系型政策语言和相应的学习器，以及基于随机游走的面向目标的规划域的自举例行程序，实验结果表明，该系统能够解决一系列的规划域和其随机变体，但提出了一些局限性建议未来工作。

Sep, 2011

具约束异构的联邦强化学习

我们研究了具有约束异构性的联邦强化学习（FedRL）问题，通过多个智能体在不同环境下协同学习，解决具有多个约束的强化学习问题，并提出了基于传统策略梯度方法的联邦原始 - 对偶策略优化方法，其中我们关注的两种算法为 FedNPG 和 FedPPO，通过使用深度神经网络，FedPPO 有效地解决了复杂的学习任务。

May, 2024

联邦变分推断：实现更好的个性化和泛化

本文提出了基于贝叶斯推断的层次生成模型和 FedVI 算法，该算法通过变分推断训练模型并结合 PAC-Bayes 分析提供了更好的泛化性能。作者还在 FEMNIST 和 CIFAR-100 数据集上进行了实验验证，结果显示 FedVI 在图像分类任务上的表现超过了现有算法。

May, 2023

联合概率选择与功率分配的联邦学习

研究在有限能源预算的设备上训练机器学习模型时，联邦学习在无线网络中的性能表现，提出了一种基于概率的客户端选择和功率分配方法，通过交替算法解决该问题，并与其他基准进行了比较，结果表明该方法在能源消耗、完成时间和准确性方面取得了显著的性能。

Jan, 2024