分布式统计学习中平均化的最优性

Jul, 2014

分布式统计学习中平均化的最优性

On the Optimality of Averaging in Distributed Statistical Learning

Jonathan Rosenblatt, Boaz Nadler

TL;DR研究大数据情况下的参数平均化方法在经验风险最小化中的应用，探讨了数据分割对估计误差的影响和高维情况下的表现，得出了适用于两种情况的渐进误差估计和精度和存储复杂度之间的权衡关系。

Abstract

A common approach to statistical learning with big-data is to randomly split it among $m$ machines and learn the parameter of interest by averaging the $m$ individual estimates. In this paper, focusing on empirical risk

big-data empirical risk minimization parameter averaging asymptotic error analysis accuracy-complexity tradeoff

发现论文，激发创造

统计优化的通信高效算法

分析了两种用于大规模数据集的分布式统计优化的通信有效算法，一种是标准平均法，另一种是基于适当形式的自助子抽样的新算法，实验结果表明两种方法都有效地解决了中文 SoSo 搜索引擎的广告预测问题。

Sep, 2012

高效分布式在线预测和随机优化：近似分布式平均方法

研究分布式方法用于在线预测和随机优化，并提出了基于 gossip 的优化方法以实现最优的后悔界限。

Mar, 2014

随机分布式均值估计：准确性与通信

本文研究如何在分布式计算环境中在通信成本约束下，适应一系列随机化算法以在预期的通信成本和估计误差之间进行权衡，实现对一组向量的平均值估计，为分布式优化和学习算法中的 reduce-all 操作提供了一种解决方案。

Nov, 2016

有限数据下社交机器学习的非渐进性能

本文研究了社交机器学习框架中的错误概率，包括独立训练阶段和在图上进行合作决策阶段。针对两种有限观测的分类任务，我们描述了分布式学习规则并相应地分析了错误概率。针对统计分类问题，我们采用几何社交学习规则进行性能分析。针对单样本分类任务，我们建立了一个分布式学习规则作为集成分类器，并构建了该集成分类器的错误概率上界。

Jun, 2023

最优模型平均化：走向个性化协作学习

本文研究了加权模型平均对任意标量均值估计问题的影响，发现加权平均模型可以减少局部模型的期望平方误差，并量化了加权模型平均的（可能为负的）益处。这项研究正式确定了一种量化协作学习个性化价值的方法，并为未来多元参数估计和基于一系列假设的检验研究提供了框架。

Oct, 2021

使用分布式双均值在网络中指数级快速进行参数估计

本文提出了一种基于优化的分布参数估计和观察性社交学习方法，演示了如何使用分布式，在线的 Nesterov 双平均法解决纯粹依靠本地信息的估计，并证明了代理最终可以使用随机瓦解方案学习真实参数。

Sep, 2013

分布式统计学习的引导模型聚合

本文提出两种方差降低方法对分布式、隐私保护学习中使用的基于自助法的方法进行改善，包括权重 M - 估计器等。进行了理论和实证分析以证明我们的方法。

Jul, 2016

镜像平均学习

该研究论文研究了有限估计器或分类器的模型选择类型聚合问题，通过简单递归程序构建了一个新的估计器或分类器，并探讨了回归、分类和密度估计等几个问题。

Nov, 2005

混合线性回归模型的聚类数据中的 EM 算法

在分布式数据中，通过结构化数据进行 EM 估计的集群结构可有效提高学习方案，最多需要 O (1) 次迭代以达到相同的统计准确性，只要 m 按照 e^{o (n)} 增长。

Aug, 2023

分布式随机主成分分析的通信效率算法

在统计分布设置中，研究了 PCA 的基本问题，介绍了一种在计算效率和估计误差方面都优于局部 ERM 解决方案的算法，通过进行简单的校正步骤来消除误差并提供一种估计器，还介绍了一种使用分布式矩阵向量乘法的迭代分布式算法，提供在广泛的参数范围内通信轮次的显着加速。

Feb, 2017