基于表格数据的联邦学习基准测试:比较基于树模型和神经网络的方法
通过与传统树模型如 XGBoost 和随机森林的对比,研究发现,对于中等大小数据集(约 10K 个样本),树模型仍然是当前在表格数据上的最佳选择;研究还提出了神经网络在表格数据上建模的若干挑战,并为后续研究提供基准测试数据和计算资源。
Jul, 2022
本文研究了如何将联邦学习应用于车辆使用案例中,目标是对道路上的障碍物、异常情况和路面类型进行分类。我们提出的框架利用了联邦学习和 TabNet,这是一种用于表格数据的先进神经网络。我们是第一个展示 TabNet 如何与联邦学习集成的研究,并且我们取得了最高 93.6% 的测试准确率。最后,我们论证了联邦学习是该数据集的一个合适概念。
May, 2024
在这篇研究论文中,我们评估了一种使用 Minimal Variance Sampling (MVS) 的基于直方图的联邦 XGBoost 模型,证明了我们的模型在联邦环境中能够通过提高准确性和回归误差来改进性能,并在一组新的联邦表格数据集上取得了优秀的本地和全局性能。联邦 XGBoost 在一半的研究案例中也胜过了集中式 XGBoost。
May, 2024
该研究提出了一种多任务联邦学习算法,通过添加非联邦批归一化层来允许用户训练个性化的模型,该算法支持联邦优化策略并在实验中表现出更快的收敛速度和更好的个性化精度。
Jul, 2020
本研究旨在调查非独立同分布数据对联邦 XGBoost 的影响,并在多个数据集和数据 Skew 分区上进行了广泛的实验测试,结果表明该模型在不同的分区比例下性能表现良好且与在集中式环境下训练的模型相当或接近。
Sep, 2022
信用风险预测对商业银行和其他金融机构在授予贷款和减少潜在损失方面起着关键作用。本研究调查了联邦学习在信用风险评估中的可行性,并展示了数据不平衡对模型性能的影响。通过使用多层感知机 (MLP)、长短期记忆网络 (LSTM) 和极限梯度提升 (XGBoost) 等不同架构,以及三个不同数据集和不同场景下的数据分布配置,我们证明了联邦模型在数据集较小的非主导客户上始终优于本地模型,在高度不平衡的数据场景中平均提高了 17.92% 的模型性能,然而对于数据更多的主导客户,联邦模型可能表现出较低的性能,因此需要针对这类客户提供特殊的激励以鼓励其参与。
Jan, 2024
本研究提出 FedNLP 框架,用于比较研究隐私保护、分散式学习方法在自然语言处理任务中的表现,并分析不同分区策略下联邦学习方法与自然语言处理的关联,为未来的研究提供借鉴。
Apr, 2021
在本研究中,我们提出了一种名为 RepTreeFL 的新型联邦学习框架,通过复制参与客户端的模型架构并扰动其本地数据分布的方式,在有限的数据和少数客户端的情况下,通过聚合多个具有不同数据分布的模型来实现学习。我们利用客户端网络的分层结构以及副本之间的模型差异性,引入了一种基于多样性的树聚合方法,在树状结构中组合副本,并根据模型差异性动态更新聚合权重。实验结果表明,在数据和客户端都有限的情况下,RepTreeFL 在图生成和图像分类(二分类和多分类)的两个任务和两种类型的数据中表现出良好的效果和优势。
Dec, 2023
我们开发了一个 FL 框架,其中维护一个全局的 NGM 模型,通过学习本地 NGM 模型的平均信息,同时保持训练数据在客户端环境中。我们的设计 FedNGMs 避免了神经元匹配框架的问题,如 Federated Matched Averaging,在这些框架中存在模型参数膨胀的问题。我们的全局模型大小在整个过程中保持恒定。对于客户端具有不包含在组合全局分布中的本地变量的情况,我们提出了一种 “拼接” 算法,它通过使用客户端数据合并附加变量来个性化全局 NGM 模型。FedNGM 对数据异质性、大量参与者和有限的通信带宽具有鲁棒性。
Sep, 2023
提出一种水平联邦 XGBoost 的创新框架,通过使聚合树模型的学习率可学习,从而不依赖于梯度共享,同时提高隐私和通信效率,降低通信轮数和开销,并在各种数据集上进行了广泛评估。
Apr, 2023