压缩 K 均值
压缩学习是一种新兴方法,通过首先将大规模数据集总结为低维度的草图向量,然后从这个草图中解码出学习所需的潜在信息,从而极大地减少大规模学习的内存占用。我们的研究旨在设计易于调优的算法(称为解码器),以稳健高效地提取这些信息,然后通过分析压缩聚类中的 CL-OMPR 算法的局限性,提出了一种改进方案,大大提高了信息提取的准确性和效率。
Dec, 2023
本文提出了一种压缩学习框架,通过数据的限制集来估计模型参数,并演示了该方法在高斯混合模型和说话人验证任务中的成功应用,以及它与随机特征的近似希尔伯特空间嵌入方法之间的联系。
Jun, 2016
本文提出了一种基于随机化的近似核 K-means 簇算法,其利用采样点与数据集中所有点之间的核相似性来近似聚类中心,实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求,最后利用集成聚类技术进一步提高算法性能。
Feb, 2014
本文研究了基于度量空间中的聚类点的算法和优化,提出了一种通用的类 Lloyd 算法的无限算法族,利用有效的学习算法从特定于应用程序的聚类实例分布中学习到了最佳聚类算法,包括著名的 k-means ++ 算法及其它。
Sep, 2018
K-Means 聚类使用 LLoyd 算法是一种迭代方法,将给定数据集分成 K 个不同的簇;本文将比较并分析两种不同的方法,一种是基于 OpenMP 的平坦同步方法,另一种是基于 GPU 的并行化方法,通过比较结果测量性能改进。
May, 2024
平衡 K-means(EKM)是一种新颖且简单的 K-means 类型算法,通过减少大簇中心聚集的趋势,在不平衡数据上显著改善聚类结果。该论文还介绍了 HKM、FKM 和 EKM 的统一视角,展示它们本质上是梯度下降算法,并与牛顿法有明确的关系。通过将高维数据映射到低维、适合 EKM 的空间,使用 EKM 进行深度聚类可在不平衡数据上将聚类准确性提高 35%。
Feb, 2024
提出了一种内存高效的 Differentiable KMeans Clustering 实现,eDKM,通过新技术降低 DKM 的内存占用量,成功将预训练的 LLaMA 7B 模型从 12.6 GB 压缩到 2.5 GB,并在广泛的 LLM 基准测试中提供良好的准确性。
Sep, 2023
提出一种新算法 - Laplacian K-modes 聚类算法,它融合了聚类中三种不同的思想:K-means 中的隐式分配变量,mean-shift 中的密度估计,和图拉普拉斯正则化效应中的近邻点相似性分配,该算法可以解决难以聚类的问题,同时提供了一个预测新点的软分配映射。
Jun, 2014
本文考虑在 MapReduce 环境下设计用于处理大数据集的聚类算法,重点研究实用和流行的聚类问题,如 k-center 和 k-median,并开发具有常数因子近似保证的快速聚类算法。
Sep, 2011
我们提出了一种新的算法 Laplacian K-modes,并通过优化一个紧密的辅助函数提高了其可伸缩性,进而实现了大规模数据的并行化聚类和密度模式查找,并在各种数据集上进行了全面的实验。
Oct, 2018