非独立同分布数据孤岛上的联邦学习：一个实验研究

Feb, 2021

非独立同分布数据孤岛上的联邦学习：一个实验研究

Federated Learning on Non-IID Data Silos: An Experimental Study

Qinbin Li, Yiqun Diao, Quan Chen, Bingsheng He

TL;DR本文介绍了分布式数据库中的非独立同分布数据的系统性了解和研究的必要性，并通过全面的数据分区策略和广泛的实验来评估现有的联邦学习算法，提供了未来解决 ' 数据孤岛 ' 挑战的启示。

Abstract

Due to the increasing privacy concerns and data regulations, training data have been increasingly fragmented, forming distributed databases of multiple "data silos" (e.g., within different organizations and count

privacy concerns data regulations federated learning non-iid data machine learning

发现论文，激发创造

对应用于解决联邦学习中非独立同分布和异质数据特性的不同技术的综述

联邦学习是一种机器学习方法，可以在持有本地数据样本的多个分散边缘设备之间进行协作模型训练，而无需交换这些样本。本报告探讨了非独立非同分布的数据与异构数据带来的问题，并探索了目前设计用于解决这些挑战的算法。

Jan, 2024

非独立同分布数据上的联邦学习：调查

本文讨论了联邦学习的隐私保护机制，分析了非独立同分布数据对水平和垂直联邦学习中参数和非参数机器学习模型的影响，概括了当前解决非独立同分布数据挑战的方法，并讨论了这些方法的优缺点。最后，提出了研究方向。

Jun, 2021

多联邦学习：使用分散的联邦学习处理包容性非独立同分布数据

多联邦学习是一个去中心化的联邦学习框架，旨在解决非独立同分布数据的问题，并通过维护多个模型并行进行收敛，以增强适应性。

Apr, 2024

样本非独立同分布数据上的联邦 XGBoost

本研究旨在调查非独立同分布数据对联邦 XGBoost 的影响，并在多个数据集和数据 Skew 分区上进行了广泛的实验测试，结果表明该模型在不同的分区比例下性能表现良好且与在集中式环境下训练的模型相当或接近。

Sep, 2022

非独立同分布数据下的联邦学习

本文着重研究了在本地数据不 IID 的情况下联邦学习面临的统计挑战，提出了一个使用全局数据子集来提高非 IID 数据训练准确性的解决方案，并通过实验表明，使用仅占 5％的全局数据子集就可以将 CIFAR-10 数据集的准确性提高 30％。

Jun, 2018

信息论分布多元化实现联邦泛化

我们的论文提出了一种信息论的泛化框架来解决联邦学习中的分布不一致问题，并通过引入加权聚合方法和客户端选择策略来增强泛化能力。

Oct, 2023

联邦机器学习和集中式机器学习的比较评估

本文讨论分布式数据的非 IID 性质及其对联邦学习的训练造成的影响，同时对联邦学习与典型集中式梯度下降技术的不同之处进行比较，并在实践中演示样品数量和输出标签分布对联邦学习的影响。此外，本文证明了在模型大小不太大的情况下使用联邦学习框架具有成本优势。

Feb, 2022

统计异质性变化下联邦学习环境的优化

本文通过对三个数据集上的不同统计异质性水平进行的联邦学习训练参数和聚合器的经验分析，提出了一种系统的数据分区策略来模拟不同统计异质性水平，并引入了一种衡量独立同分布程度的度量标准。此外，还基于不同特征的数据集，实证确定了最佳的联邦学习模型和关键参数。最终，我们针对不同独立同分布程度和数据集提出了优化模型性能的联邦学习参数和聚合器的推荐指南。

Jun, 2024

利用本地更新的分层聚类来提高非独立同分布数据的联邦学习

本文提出了一种修改的联邦学习 (FL+HC) 方法，通过引入分层聚类步骤将客户端分为相似的集群，然后对这些集群进行独立并行的训练，实现在非独立同分布的数据环境下的模型训练，通过该方法可以使模型的性能、收敛速度、精度都有所提升。

Apr, 2020

异构数据感知联邦学习

本研究提出一种新方法来解决联邦学习中的问题，并在本文所述的公开基准数据集（如 Femnist）以及自己收集的数据集（即流量分类）上验证了该方法的有效性，结果表明这种方法在极端情况下具有显著的优势。

Nov, 2020