k-means 聚类的随机投影

NIPSNov, 2010

Random Projections for $k$-means Clustering

Christos Boutsidis, Anastasios Zouzias, Petros Drineas

TL;DR该论文研究了使用降维技术来提高 $k$-means 聚类算法的效率和精度，通过使用随机矩阵对多维数据进行投影，并经过大量实验验证了该方法的准确性。

Abstract

This paper discusses the topic of dimensionality reduction for $k$-means clustering. We prove that any set of $n$ points in $d$ dimensions (rows in a matrix $A \in \RR^{n \times d}$) can be projected into $t = \Omega(k / \eps^2)$ dimensions, for any $\eps \in (0,1/3)$, in $O(n d \lceil

dimensionality reduction $k$-means clustering projection random matrix face images dataset

发现论文，激发创造

一维投影聚类的简单、可扩展和有效方法

非监督学习中的聚类是一个基础问题，本研究介绍了一种简单的随机聚类算法，它在任意 k 下的期望运行时间为 O (nnz (X) + nlogn)，并在 K-means 目标函数上实现了近似比例约为 O (k^4) 的算法，通过实验证明与现有方法相比，我们的聚类算法在运行时间和聚类质量之间有一个新的权衡。

Oct, 2023

k-Means 聚类和低秩逼近的降维

研究采用缩略图替代数据矩阵来加速 k - 均值聚类和约束 k - 秩近似问题的精确、近似或启发式算法，并提供降维和草图技术及近似算法来解决这些普遍问题。

Oct, 2014

贝叶斯回归的随机投影

该研究论文探讨随机投影作为贝叶斯回归分析的数据降维技术，证明了高维分布在数据点从 n 到 k 时仍可以得到保留，通过对投影数据进行高斯似然函数的评估获得的结果误差很小，结果表明该方法能够高效恢复回归模型。

Apr, 2015

Johnson-Lindenstrauss 变换在 k-Means 和 k-Medians 聚类中的表现

通过投影到随机的 O (log (k/ ε) / ε²) 维子空间上，可以近似保持欧几里得 k-means 或 k-medians 聚类的最优解成本，并且适用于任何满足温和的子高斯尾条件的维度缩减映射，其维数几乎是最优的。此外，该结果适用于所有权重的欧几里得 k - 聚类。

Nov, 2018

k-means 在平面上甚至需要指数次迭代

证明了 k-means 算法存在关于维数的指数下界，并以平面上的简单构造为例给出了指数下界的证明。

Dec, 2008

关于投影聚类的泛化界限

给定一组点，聚类是找到一个点集合的分区，使分配给一个点的中心尽可能接近。对于中心为点的目标，我们显示了一个收敛速度为 O (sqrt (k/n)) 的收敛界限。对于中心为 j 维子空间的子空间聚类，我们显示了一个收敛速度为 O (sqrt ((kj^2)/n)) 的收敛界限。对于广义 $k$-means 的投影聚类特例，我们证明了一个收敛速度为 Omega (sqrt ((kj)/n)) 的必要界限。

Oct, 2023

基于随机化的降维在设施定位和单链接聚类中的应用

本文研究将输入点集 $X$ 投影到随机 $d=O (d_X)$ 维子空间（其中 $d_X$ 是 $X$ 的双倍维数）的随机降维应用到聚类问题中，主要探讨了设施选址问题和单链接层次聚类问题。研究表明，这种方法在维度映射到一定程度时，可以达到在原始空间中找到的最优的设施选址近似值，同时这种方法还可以用于解决最小生成树等问题。

Jul, 2021

随机投影的精确表达式：低秩逼近与随机牛顿

利用随机矩阵的谱分析最新进展，我们开发了一种新的技术，提供了随机投影矩阵的期望值的确切表达式，这些表达式可以用来表征多种常见的机器学习任务中的降维性能，包括低秩估计和迭代随机优化等。我们的结果适用于多种流行的草图方法，包括高斯和 Rademacher 草图，结果表明，我们推导出的表达式反映了这些草图方法的实际性能，甚至体现了较低阶效应和恒定因子。

Jun, 2020

随机降维 k-means 聚类

本文研究了 $k$-means 聚类的降维问题，提出了第一个能够保证准确的特征选择方法，并针对特征提取提出了两种方法，分别基于随机投影和快速近似 SVD 分解。所提出的算法是随机的，并对最优 $k$-means 目标值提供一定的近似保证。

Oct, 2011

随机超平面镶嵌的降维

研究了如何利用随机超平面对区域进行均匀的镶嵌，并利用超平面将欧氏空间中的有界集嵌入哈明空间中，从而实现对欧氏空间中集合的离散化降维。

Nov, 2011