极值理论概率分布聚类
提出了一种新的基于能量距离的分布聚类算法 ——k-groups,它可以用于解决数据不服从正态分布或有强烈偏斜和重尾时的聚类问题。与传统的 k-means 算法相比,k-groups 算法在高维度和非球形簇方面表现更好,并且在皮肤科数据案例中也表现出优异的性能。
Nov, 2017
本文提出了一种基于神经网络的似然函数 - free 方法来估计广义极值分布,以解决传统极大似然估计方法在大规模数据集上的计算瓶颈,并通过仿真和气候数据应用实验证明了其在精度与速度之间达到了一个平衡。
May, 2023
本研究提出了 Sparse-GEV 模型,即基于极端值建模的潜在状态模型,以自动学习稀疏的时间依赖性并进行预测。该模型是学习多元极值时间序列稀疏时间依赖性的第一批模型之一。实验结果表明,我们的算法在一个模拟数据集,一个气候数据集和两个 Twitter 数据集上比最先进的方法,包括 Granger 因果性,copula 方法和转移熵,表现更优越。
Jun, 2012
该论文证明了一个简单的聚类算法可以在不假设任何生成模型的情况下运作,只需要假定一种叫做 “接近条件” 的规律。该算法依赖于著名的 k-means 算法,能够产生大多数现有生成模型的结果,同时提出了一种新的技术来提高间距与标准差之比。
Apr, 2010
本文介绍了一种基于多元极值理论的算法,用于在高维空间中学习如何根据它们的异常程度对观测值进行排名,并与非极端数据的异常检测技术结合使用,从而避免受到维度诅咒的影响。
Mar, 2016
通过整合基于模型和基于质心的方法,提出了一种高效且自动的聚类技术,解决噪声对聚类质量的影响,并确保无需提前指定聚类数的优点。在模拟和真实数据集上进行了严格评估和统计保证,表明我们提出的方法优于现有先进聚类算法。
Nov, 2023
通过利用自动编码器将图像编码为高维潜空间,并使用 Monte-Carlo 边缘化和 Kullback-Leibler 散度损失来拟合 Gaussian Mixture Models (GMM) 的高斯成分和学习数据分布,从而实现图像聚类,并展示在高维空间中,相比于经典的 Expectation-Maximization (EM) 算法,MCMarg 和 KL 散度能够极大地缓解聚类算法面临的困难,实验证明了分布学习在利用 GMM 进行高维图像聚类方面的潜力。
Aug, 2023
本文从贝叶斯非参数的角度出发,重新审视了 k-means 聚类算法。通过分析 Dirichlet 过程混合物的 Gibbs 抽样算法,我们发现这个算法在极限下接近于硬聚类算法,可以优雅且单调地最小化一个类似 k-means 的聚类目标,包括对聚类数的惩罚。我们将这个方法推广到了多个数据集的聚类情况,并讨论了进一步的扩展,包括门槛特征向量的光谱松弛和在图中不需要固定聚类数的归一化割图聚类算法。
Nov, 2011
提出了一种计算理论和半监督聚类算法,将聚类定义为根据所选的聚类原则和度量方法获得数据分组,使每个组不包含异常值,所有其他示例被认为是边缘点,孤立的异常值、异常簇或未知簇。
Jun, 2023