面向分布式数据的狄利克雷过程混合模型可伸缩估计
本文从贝叶斯非参数的角度出发,重新审视了k-means聚类算法。通过分析Dirichlet过程混合物的Gibbs抽样算法,我们发现这个算法在极限下接近于硬聚类算法,可以优雅且单调地最小化一个类似k-means的聚类目标,包括对聚类数的惩罚。我们将这个方法推广到了多个数据集的聚类情况,并讨论了进一步的扩展,包括门槛特征向量的光谱松弛和在图中不需要固定聚类数的归一化割图聚类算法。
Nov, 2011
该研究介绍了一种针对文档群集的Hierarchical Dirichlet process (HDP)模型,描述了一种新的split-merge MCMC采样算法用于后验推断,这种算法可以显著改善传统的Gibbs采样,并且给出了一些因数据属性而导致的改进理解。
Jan, 2012
本文介绍一种新型的DP重新参数化方法,该方法在聚类分析中广泛使用,能够实现DP的并行学习,从而提高了学习速度和效率,同时该方法不需要改变模型并且能够保持标准后验分布不变。
Apr, 2013
提出了一种基于依赖狄利克雷过程混合模型(DDPMM)的新的聚类算法,用于聚类包含未知数量的进化聚类的批量连续数据。该算法通过对DDPMM的Gibbs抽样算法进行低方差渐近分析而得出,提供类似于k-means算法的收敛保证的硬聚类。通过移动高斯聚类的合成测试和真实的ADS-B飞机轨迹数据测试的实证结果表明,与当代概率和硬聚类算法相比,该算法在提供更高准确性的同时需要更少的计算时间。
May, 2013
本研究介绍了一种名为层次狄利克雷缩放过程(HDSP)的Bayesian非参数混合成员模型,可以泛化层次狄利克雷过程(HDP),以模拟语料库中元数据和混合成分之间的相关结构。通过实验,表明HDSP产生的预测性能比其他几个模型更好。
Mar, 2014
提出了一种用于创建基于贝叶斯非参数模型的流式分布式推理算法的方法,其中处理节点接收数据小批量序列,为每个小批量计算变分后验,并对中央模型进行异步流式更新。
Oct, 2015
本研究提出了一种有效的基于Hawkes过程的Dirichlet混合模型方法来解决事件序列聚类问题,并通过EM算法的内外迭代进行分析和学习,演示了该方法的优越性和稳健性。
Jan, 2017
使用改进的参数分布推导出来自Dirichlet-Multinomial分布的Powered中餐厅过程,以解决Dirichlet先验不一定是建模数据的最佳选择的问题,并提供直接控制“富人越富”先验重要性的新公式。
Apr, 2021
通过使用合适的统计量,本文提出了一种新的DPMM(Dirichlet Process Mixture Models)的分布式马尔科夫链蒙特卡罗(MCMC)推理方法(DisCGS)。该方法使用了折叠的吉布斯采样器,并且特别设计用于在独立异构的机器间处理分布式数据,使其在横向联合学习中具备应用能力。我们的方法取得了非常有前景的结果和显著的可扩展性。例如,对于包含10万个数据点的数据集,集中式算法需要大约12小时完成100次迭代,而我们的方法仅需3分钟完成相同的迭代次数,将执行时间缩短了200倍,同时不影响聚类性能。
Dec, 2023