基于Bregman Power的k均值算法用于聚类指数族数据
本研究探讨了K-means算法及其初始化方法在聚类方面的应用,比较了8种常用线性时间复杂度的初始化方法,并使用各种性能指标对各种数据集进行了测试和分析, 结论表明,当前通用的初始化方法表现不佳,并且有更好的替代方案。
Sep, 2012
提出了一种使用Bregman差异构建强核心集的单一实用算法,可用于广泛的硬聚类和软聚类问题,并演示了该算法的实用性。
Aug, 2015
本文基于确定性信息瓶颈(DIB)方法提出了一种新的模型选择算法,将改进后的IB方法用于基于几何距离的聚类,通过识别聚类数与空间信息之间的权衡,有效选择聚类数,实现了对k-means和EM算法的信息论泛化。
Dec, 2017
本文研究了基于度量空间中的聚类点的算法和优化,提出了一种通用的类Lloyd算法的无限算法族,利用有效的学习算法从特定于应用程序的聚类实例分布中学习到了最佳聚类算法,包括著名的k-means ++算法及其它。
Sep, 2018
本文研究了Ward方法在分层k均值问题中的应用,通过对完全链接的算法进行分析,发现当最优k聚类具有良好分离性时,Ward方法可以计算出k-均值目标函数的2-近似解,并证明了当最优聚类满足平衡条件时,Ward方法完全恢复最优解,并且我们证明了一维数据集的Ward聚类可以实现O(1)的近似解。
Jul, 2019
本文基于极值理论的广义帕累托分布,提出了一种新的聚类算法GPD k-means,它模型化了聚类的距离分布,并用概率模型描述了每个类别。实验证明,在合成数据集和真实数据集上,GPD k-means优于传统聚类算法。
Feb, 2022
提出了一种结合普适引力算法的数据驱动巴格曼散度参数优化聚类算法(DBGSA),通过构建具有特殊属性的引力系数方程,逐渐减少迭代过程中的影响因子,并引入巴格曼散度广义幂均值信息损失最小化来识别聚类中心和构建超参数识别优化模型,有效解决了改进数据集中手动调整和不确定性的问题。对四个模拟数据集和六个真实数据集进行了广泛实验,结果表明DBGSA相对于其他类似方法如改进聚类算法和改进数据集,平均提高了63.8%的各种聚类算法的准确性。此外,建立了一个三维网格搜索来比较阈值条件下不同参数值的效果,并发现我们模型提供的参数集是最优的,这一发现为算法的高准确性和强韧性提供了有力的证据。
Jul, 2023
聚类是无监督机器学习中的关键问题,如何通过混合模型来研究聚类是常见的。本文首先通过契诺夫散度建立了聚类任何混合模型的一个普遍下界,然后证明在具有次指数尾部的混合模型中,迭代算法可以达到这个下界;此外,对于更适合使用泊松或负二项式混合模型的数据集,我们研究了属于指数族的混合模型,在这种混合模型中,我们证明了一种改进的Lloyd算法——Bregman硬聚类,是速率最优的。
Feb, 2024
本研究针对基于距离的聚类方法的局限性,提出了一种基于似然的硬聚类方法。通过理论证明,展示了该方法的收敛性,并通过仿真和实际数据示例验证了其有效性。该研究的主要发现是,利用似然可以改进聚类结果并提供更强的理论基础。
Sep, 2024