面向分布式数据的狄利克雷过程混合模型可伸缩估计

Sep, 2017

面向分布式数据的狄利克雷过程混合模型可伸缩估计

Scalable Estimation of Dirichlet Process Mixture Models on Distributed Data

Ruohui Wang, Dahua Lin

TL;DR在分布式环境中，通过提出一种新的估计方法，允许本地节点创建新元素并通过概率一致性方案合并相应聚类的组件，同时保持估计的一致性，此法可在分布式和异步环境中实现高可扩展性。

Abstract

We consider the estimation of dirichlet process mixture models (DPMMs) in distributed environments, where data are distributed across multiple computing nodes. A key advantage of →

发现论文，激发创造

Dirichlet过程混合模型的快速搜索

本文研究了用于密度估计的柏努利处理（DP）混合模型的计算问题，并提出了一种可用于大数据集的搜素算法。

Jul, 2009

基于贝叶斯非参数的k-means聚类新算法再探

本文从贝叶斯非参数的角度出发，重新审视了k-means聚类算法。通过分析Dirichlet过程混合物的Gibbs抽样算法，我们发现这个算法在极限下接近于硬聚类算法，可以优雅且单调地最小化一个类似k-means的聚类目标，包括对聚类数的惩罚。我们将这个方法推广到了多个数据集的聚类情况，并讨论了进一步的扩展，包括门槛特征向量的光谱松弛和在图中不需要固定聚类数的归一化割图聚类算法。

Nov, 2011

一种针对层级狄利克雷过程的分裂-合并MCMC算法

该研究介绍了一种针对文档群集的Hierarchical Dirichlet process (HDP)模型，描述了一种新的split-merge MCMC采样算法用于后验推断，这种算法可以显著改善传统的Gibbs采样，并且给出了一些因数据属性而导致的改进理解。

Jan, 2012

ClusterCluster：针对狄利克雷过程混合模型的并行马尔科夫链蒙特卡罗算法

本文介绍一种新型的DP重新参数化方法，该方法在聚类分析中广泛使用，能够实现DP的并行学习，从而提高了学习速度和效率，同时该方法不需要改变模型并且能够保持标准后验分布不变。

Apr, 2013

基于狄利克雷过程混合的相关性渐近动态聚类

提出了一种基于依赖狄利克雷过程混合模型（DDPMM）的新的聚类算法，用于聚类包含未知数量的进化聚类的批量连续数据。该算法通过对DDPMM的Gibbs抽样算法进行低方差渐近分析而得出，提供类似于k-means算法的收敛保证的硬聚类。通过移动高斯聚类的合成测试和真实的ADS-B飞机轨迹数据测试的实证结果表明，与当代概率和硬聚类算法相比，该算法在提供更高准确性的同时需要更少的计算时间。

May, 2013

层次狄利克雷缩放过程

本研究介绍了一种名为层次狄利克雷缩放过程（HDSP）的Bayesian非参数混合成员模型，可以泛化层次狄利克雷过程（HDP），以模拟语料库中元数据和混合成分之间的相关结构。通过实验，表明HDSP产生的预测性能比其他几个模型更好。

Mar, 2014

面向贝叶斯非参数模型的流式分布式变分推断

提出了一种用于创建基于贝叶斯非参数模型的流式分布式推理算法的方法，其中处理节点接收数据小批量序列，为每个小批量计算变分后验，并对中央模型进行异步流式更新。

Oct, 2015

基于Hawkes过程的狄利克雷混合模型用于事件序列聚类

本研究提出了一种有效的基于Hawkes过程的Dirichlet混合模型方法来解决事件序列聚类问题，并通过EM算法的内外迭代进行分析和学习，演示了该方法的优越性和稳健性。

Jan, 2017

使用动力狄利克雷过程控制贝叶斯聚类中先验偏好的重要程度

使用改进的参数分布推导出来自Dirichlet-Multinomial分布的Powered中餐厅过程，以解决Dirichlet先验不一定是建模数据的最佳选择的问题，并提供直接控制“富人越富”先验重要性的新公式。

Apr, 2021

分布式多项式混合模型的收缩吉布斯采样器在联邦学习中的应用

通过使用合适的统计量，本文提出了一种新的DPMM（Dirichlet Process Mixture Models）的分布式马尔科夫链蒙特卡罗（MCMC）推理方法（DisCGS）。该方法使用了折叠的吉布斯采样器，并且特别设计用于在独立异构的机器间处理分布式数据，使其在横向联合学习中具备应用能力。我们的方法取得了非常有前景的结果和显著的可扩展性。例如，对于包含10万个数据点的数据集，集中式算法需要大约12小时完成100次迭代，而我们的方法仅需3分钟完成相同的迭代次数，将执行时间缩短了200倍，同时不影响聚类性能。

Dec, 2023