NIPSFeb, 2017
通信最优的分布式聚类
Communication-Optimal Distributed Clustering
Jiecao Chen, He Sun, David P. Woodruff, Qin Zhang
TL;DR本文研究了分布式模式下的图形和几何聚类问题,并给出了两个模型中几乎是最优的协议,突出了广播通道在聚类问题中的惊人能力,我们的算法已在实际数据集上得到了验证。
Abstract
clustering large datasets is a fundamental problem with a number of
applications in machine learning. Data is often collected on different sites
and clustering needs to be performed in a →
发现论文,激发创造
在一般拓扑上进行分布式 k-Means 和 k-Median 聚类
本文提出一种新的分布式 k-median 和 k-means 聚类算法,通过 coresets 的方法,构建全局 coreset,降低了通信复杂度,实验结果表明该算法优于其他 coreset-based 分布式聚类算法。
Jun, 2013
具有次线性通信的分布式学习
研究了在分布式学习中,如何在总通信次数亚线性的情况下通过镜像下降与随机稀疏化 / 量化迭代相结合的算法来实现线性模型的最优误差学习,从而探讨了高维环境下分布式学习的可行性。
Feb, 2019
通过分布式数据处理不等式推导统计估计问题的通信下界
本文研究了高维分布统计估计问题的统计误差和通信成本之间的权衡,并提供了分布式稀疏高斯均值估计问题的紧密的权衡分析结果,这直接导致了分布式稀疏线性回归问题的下界,并给出了在稠密情况下均值估计的第一个最优同时协议。
Jun, 2015
带有大量噪音数据的分布式 k - 聚类
在分布式环境中,对 $k$-center/median/means 聚类与 outliers 问题 (或 $(k, z)$-center/median/means 问题) 进行研究,提出了一种改进算法,能够更好地解决 communication costs 线性依赖于 outliers 数量的问题。
Oct, 2018
分布式统计估计和维度的通信成本
探索分布式学习中维度和沟通成本之间的关系,研究估计未知高维高斯分布均值的问题。同时,提出了一个基于阈值的协议,可在保证相同平方损失的前提下节省通信开销。
May, 2014