基于分布核的分布式聚类
本文提出一种新的分布式 k-median 和 k-means 聚类算法,通过 coresets 的方法,构建全局coreset,降低了通信复杂度,实验结果表明该算法优于其他 coreset-based 分布式聚类算法。
Jun, 2013
本文提出了一种基于随机化的近似核 K-means 簇算法,其利用采样点与数据集中所有点之间的核相似性来近似聚类中心,实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求,最后利用集成聚类技术进一步提高算法性能。
Feb, 2014
为解决相似性测量困难及非线性相似性未被充分考虑等问题,在核空间中提出一种模型,同时学习聚类指示器矩阵和相似度信息,并通过多核学习能力进一步扩展模型以选择最合适的内核。该模型可自动完成三个子任务以获得最佳聚类解决方案。
May, 2017
通过将线性k-均值聚类应用于使用称为等级限制的Nyström近似构造的{k/epsilon}(1+o(1))特征,本文分析了该范例应用于核k-均值聚类,并表明相对于不使用Nyström方法提供的保证,计算出的群集分配会满足相对于核k-means成本函数的1+epsilon逼近度。
Jun, 2017
通过将图构建和核学习统一框架,可以通过彼此迭代的方式增强图及共识核,而我们提出了一种学习低秩核矩阵的方法,从候选核之间的邻域中寻找最优核矩阵,进而解决了现有多核学习算法中的一些问题,并得到了验证。
Mar, 2019
本文介绍了t-SNE算法的核化版本,能够将高维数据映射到低维空间并在非欧几里德度量下保留数据点之间的成对距离,可以通过仅在高维空间或在两个空间中使用核技巧来实现,提供了数据点之间关系的新视角,改进了包括使用核方法的分类问题的性能和准确性,并利用多个数据集阐明了t-SNE和其核化版本之间的区别,展示了不同类别点的更整洁的聚类。
Jul, 2023
分布式优化在机器学习中的应用既可以由隐私保护的结果推动,也可以由计算效率的提高推动。本文旨在演示如何将双重分解应用于分布式培训 $ K $-means 聚类问题,并通过在多个基准问题上评估子梯度法、束程序信任法和拟牛顿对偶升算法的性能来支持这一观点。
Jul, 2023
提出了一种基于核密度估计问题的算法框架,用于构造稀疏近似的全连接相似度图,从而保留其聚类结构,与scikit-learn库和FAISS库的实现相比,在多个数据集上显著提升了性能。
Oct, 2023
我们提出了一种基于网络的分布式聚类算法族,通过局部数据集和与邻居节点通信来实现对整个数据集的聚类,该算法族在不同的聚类损失函数下具有强大性能,并且在收敛性和一致性方面具有良好的理论保证。
Feb, 2024
本研究解决了深度聚类与分布学习之间理论分析缺乏的问题。提出了一种名为Monte-Carlo Marginalization for Clustering的新方法,增强了深度聚类的优化指导,使得该方法在流行数据集上的表现优于现有的最先进方法。这表明新的分布学习方法在聚类任务中具有更强的效果。
Aug, 2024