高维分布式稀疏分类与可扩展性高效的全局更新

Jul, 2024

高维分布式稀疏分类与可扩展性高效的全局更新

High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates

Fred Lu, Ryan R. Curtin, Edward Raff, Francis Ferraro, James Holt

TL;DR在分布式训练模型中，我们通过优化替代似然函数在本地进行迭代改进解决了通信成本上的问题，特别是在处理大规模数据和稀疏性时的挑战，使我们能够有效地学习分布式 logistic 回归模型。

Abstract

As the size of datasets used in statistical learning continues to grow, distributed training of models has attracted increasing attention. These methods partition the data and exploit parallelism to reduce memory and runtime, but suffer increasingly from →

发现论文，激发创造

分布式分类与优化的高效协议

本文提出了基于多项式权重更新的两方协议，并且展示了一般的算法设计方法来解决在分布式数据中的高效学习问题。

Apr, 2012

统计优化的通信高效算法

分析了两种用于大规模数据集的分布式统计优化的通信有效算法，一种是标准平均法，另一种是基于适当形式的自助子抽样的新算法，实验结果表明两种方法都有效地解决了中文 SoSo 搜索引擎的广告预测问题。

Sep, 2012

L1正则化分布式优化: 一种高效的对偶原始框架

本篇论文提出一种基于分布式环境中的 L1 正则化优化问题的通信高效框架，通过将经典目标在更一般的原始对偶设定中进行观察，我们开发了一类新方法，能够有效地分布式和应用于常见的稀疏性诱导模型。

Dec, 2015

稀疏性下的高效分布式学习

提出了一种新颖、高效的分布式稀疏学习方法，可在高维度中随机分割观测数据，并在通信效率方面展现极佳的表现。

May, 2016

CoCoA: 通信高效分布式优化框架

CoCoA是一种分布式计算框架，适用于机器学习和信号处理中的大型数据集，拓展到包括L1正则化问题等非强凸正则化器，采用一种新的方法来处理非强凸正则化器和非光滑损失函数，具有明显优于现有方法的性能。

Nov, 2016

通信高效分布式优化的梯度稀疏化

通过减少信息交换的通信成本，提出了使用凸优化公式的随机梯度编码方法，该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题，同时经过正则化逻辑回归，支持向量机和卷积神经网络的实验验证了该方法的有效性。

Oct, 2017

具有次线性通信的分布式学习

研究了在分布式学习中，如何在总通信次数亚线性的情况下通过镜像下降与随机稀疏化/量化迭代相结合的算法来实现线性模型的最优误差学习，从而探讨了高维环境下分布式学习的可行性。

Feb, 2019

rTop-k：分布式SGD的统计估计方法

本文提出一种基于统计估计模型的分布式机器学习通信优化方案，将梯度稀疏化技术与随机梯度业务结合，实现了通信效率与模型性能的均衡优化。

May, 2020

优化最优加权平均：高效分布式稀疏分类

通过ACOWA技术，在分布式训练中，通过额外的通信轮次获得更准确的近似解，相较于其他分布式算法，对于稀疏分布式逻辑回归，ACOWA获得更接近经验风险最小化的解并实现更高的准确性。

Jun, 2024

最小最大和通信效率分布式最佳子集选择算法

本研究解决了传统分布式推断方法在高维数据集上难以实现真正稀疏性的问题。我们提出了一种新颖的两阶段分布式最佳子集选择算法，通过高效估计活动集并在其内进行精细估计，确保稀疏估计并匹配最小最大$\ell_2$误差界限。研究表明，该算法不仅能准确找到真实稀疏模式，还具有oracle性质，并显著降低了通信成本。

Aug, 2024