Dec, 2023

分布式多项式混合模型的收缩吉布斯采样器在联邦学习中的应用

TL;DR通过使用合适的统计量,本文提出了一种新的 DPMM(Dirichlet Process Mixture Models)的分布式马尔科夫链蒙特卡罗(MCMC)推理方法(DisCGS)。该方法使用了折叠的吉布斯采样器,并且特别设计用于在独立异构的机器间处理分布式数据,使其在横向联合学习中具备应用能力。我们的方法取得了非常有前景的结果和显著的可扩展性。例如,对于包含 10 万个数据点的数据集,集中式算法需要大约 12 小时完成 100 次迭代,而我们的方法仅需 3 分钟完成相同的迭代次数,将执行时间缩短了 200 倍,同时不影响聚类性能。