DUAL-LOCO: 使用随机投影分配统计估计

Jun, 2015

DUAL-LOCO: Distributing Statistical Estimation Using Random Projections

Christina Heinze, Brian McWilliams, Nicolai Meinshausen

TL;DRDUAL-LOCO是一种通信高效的分布式统计估计算法，通过低维随机投影来近似不同工作者之间可用特征之间的依赖关系，具有有界的近似误差，并在各种真实世界数据集上与最先进的分布式优化方法进行比较，同时保持较好的准确性。

Abstract

We present dual-loco, a communication-efficient algorithm for distributed statistical estimation. →

发现论文，激发创造

分析了两种用于大规模数据集的分布式统计优化的通信有效算法，一种是标准平均法，另一种是基于适当形式的自助子抽样的新算法，实验结果表明两种方法都有效地解决了中文 SoSo 搜索引擎的广告预测问题。

Sep, 2012

本文提出了一种基于优化的分布参数估计和观察性社交学习方法，演示了如何使用分布式，在线的 Nesterov 双平均法解决纯粹依靠本地信息的估计，并证明了代理最终可以使用随机瓦解方案学习真实参数。

Sep, 2013

本文研究了高维分布统计估计问题的统计误差和通信成本之间的权衡，并提供了分布式稀疏高斯均值估计问题的紧密的权衡分析结果，这直接导致了分布式稀疏线性回归问题的下界，并给出了在稠密情况下均值估计的第一个最优同时协议。

Jun, 2015

该论文提出了新的同步和异步随机流言算法，可以在网络中传播数据并同时维护感兴趣的$U$-统计量的本地估计，同时建立了收敛速率界限，并在数值实验中提供实际证据表明这些算法优于之前引入的方法。

Nov, 2015

本篇论文提出一种基于分布式环境中的 L1 正则化优化问题的通信高效框架，通过将经典目标在更一般的原始对偶设定中进行观察，我们开发了一类新方法，能够有效地分布式和应用于常见的稀疏性诱导模型。

Dec, 2015

提出了一种新颖、高效的分布式稀疏学习方法，可在高维度中随机分割观测数据，并在通信效率方面展现极佳的表现。

May, 2016

研究低通信成本的分布式平均估计的通信高效算法，实现数据的结构化随机旋转和编码策略，并在k-means和PCA的分布式算法中应用。

Nov, 2016

该文章提出了一种名为D-GET的去中心化随机算法，可以提高大规模机器学习中高度非凸问题的性能，同时在减少多节点通信轮数的同时，访问最少量的局部数据样本，以实现确定性有限和在线问题的小样本复杂度和通信复杂度，并优于现有方法的复杂度。

Oct, 2019

本文提出一种基于统计估计模型的分布式机器学习通信优化方案，将梯度稀疏化技术与随机梯度业务结合，实现了通信效率与模型性能的均衡优化。

May, 2020

在分布式训练模型中，我们通过优化替代似然函数在本地进行迭代改进解决了通信成本上的问题，特别是在处理大规模数据和稀疏性时的挑战，使我们能够有效地学习分布式 logistic 回归模型。

Jul, 2024