可扩展核聚类：近似核 k-means

KDDFeb, 2014

Scalable Kernel Clustering: Approximate Kernel k-means

Radha Chitta, Rong Jin, Timothy C. Havens, Anil K. Jain

TL;DR本文提出了一种基于随机化的近似核 K-means 簇算法，其利用采样点与数据集中所有点之间的核相似性来近似聚类中心，实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求，最后利用集成聚类技术进一步提高算法性能。

Abstract

kernel-based clustering algorithms have the ability to capture the non-linear structure in real world data. Among various kernel-based clustering algorithms, →

kernel-based clustering algorithms kernel k-means run-time complexity randomization ensemble clustering techniques

发现论文，激发创造

带 Nystrom 近似的可扩展核 K-means 聚类：相对误差界限

通过将线性 k - 均值聚类应用于使用称为等级限制的 Nyström 近似构造的 {k/epsilon}(1+o (1)) 特征，本文分析了该范例应用于核 k - 均值聚类，并表明相对于不使用 Nyström 方法提供的保证，计算出的群集分配会满足相对于核 k-means 成本函数的 1+epsilon 逼近度。

Jun, 2017

集群关闭的快速近似 $k$ 均值算法

本文提出了一种新的近似 k-means 算法，采用多个随机空间分区树将数据预先组装成相邻点的组，并使用邻域信息构造每个簇的闭合形式，从而在分配步骤中只需考虑少量簇的候选项，证明该方法在聚类质量和效率方面优于现有的近似 k-means 算法。

Dec, 2013

使用随机特征的近似核主成分分析：计算与统计的权衡

本文研究了随机特征逼近在核主成分分析中的应用，通过比较计算效率和统计效率，分析了逼近 KPCA 的计算和统计性能优于 KPCA，研究依赖于自伴随 Hilbert-Schmidt 算子值 U 统计量的算子和 Hilbert-Schmidt 范数的 Bernstein 型不等式。

Jun, 2017

一维投影聚类的简单、可扩展和有效方法

非监督学习中的聚类是一个基础问题，本研究介绍了一种简单的随机聚类算法，它在任意 k 下的期望运行时间为 O (nnz (X) + nlogn)，并在 K-means 目标函数上实现了近似比例约为 O (k^4) 的算法，通过实验证明与现有方法相比，我们的聚类算法在运行时间和聚类质量之间有一个新的权衡。

Oct, 2023

高性能核机器：隐式分布式优化和随机化

本文提出了一个基于分布式凸优化和随机化的算法框架和高性能实现，以实现基于核方法的统计模型的海量规模训练，以便有效地利用大数据。

Sep, 2014

相似性和聚类的双生学习：统一的核方法

为解决相似性测量困难及非线性相似性未被充分考虑等问题，在核空间中提出一种模型，同时学习聚类指示器矩阵和相似度信息，并通过多核学习能力进一步扩展模型以选择最合适的内核。该模型可自动完成三个子任务以获得最佳聚类解决方案。

May, 2017

一篇聚类算法的均值漂移综述

本文讨论了基于核密度估计和均值漂移算法的聚类方法及其理论，包括模糊和非模糊均值漂移、高斯混合模型、与尺度空间理论、谱聚类等算法的联系，以及对大型数据集的加速策略和图像分割、去噪等应用。

Mar, 2015

如何将核方法扩展到与深度神经网络一样好

通过基于随机投影导出的特征近似核函数，提出了有效地克服核方法计算复杂度的方法，并在图像识别和语音识别等大规模学习问题上成功地比较了核方法和深度神经网络的性能，同时克服了模型调节的困难。

Nov, 2014

利用 MapReduce 进行快速聚类

本文考虑在 MapReduce 环境下设计用于处理大数据集的聚类算法，重点研究实用和流行的聚类问题，如 k-center 和 k-median，并开发具有常数因子近似保证的快速聚类算法。

Sep, 2011

近似聚类的最优时间界限

本文研究了基于 k-median 目标函数的聚类问题，提出了一种称为连续采样的简单但有效的采样技术，并使用该技术开发了一个可在 O（nk）时间内运行的算法来解决 k-median 问题。

Dec, 2012