Feb, 2024
在亚指数级混合模型中实现极小化极小聚类误差的通用下界和最优速率
Universal Lower Bounds and Optimal Rates: Achieving Minimax Clustering
Error in Sub-Exponential Mixture Models
TL;DR聚类是无监督机器学习中的关键问题,如何通过混合模型来研究聚类是常见的。本文首先通过契诺夫散度建立了聚类任何混合模型的一个普遍下界,然后证明在具有次指数尾部的混合模型中,迭代算法可以达到这个下界;此外,对于更适合使用泊松或负二项式混合模型的数据集,我们研究了属于指数族的混合模型,在这种混合模型中,我们证明了一种改进的Lloyd算法——Bregman硬聚类,是速率最优的。