核矩阵近似的分布式自适应采样

Mar, 2018

Distributed Adaptive Sampling for Kernel Matrix Approximation

Daniele Calandriello, Alessandro Lazaric, Michal Valko

TL;DR介绍了一种名为 SQUEAK 的基于 RLS 抽样的核逼近算法，可以在线性时间内生成精确的核矩阵近似，并且只需处理数据集一次；同时还提出了一个并行和分布式版本，可在对数时间内线性扩展到多台机器上。

Abstract

Most kernel-based methods, such as kernel or Gaussian process regression, kernel PCA, ICA, or $k$-means clustering, do not scale to large datasets, because constructing and storing the kernel matrix $\mathbf{K}_n$ requires at least $\mathcal{O}(n^2)$ time and space for $n$ samples. Rec

kernel-based methods rls sampling squeak linear time parallel and distributed version

发现论文，激发创造

具有统计保证的快速随机核方法

本文章介绍了一种改进基于核方法的机器学习方法运行时间的方法，并提出了一个计算算法，该算法可以用来在不需要生成全核矩阵的情况下，对特征向量矩阵进行采样，并在统计表现和运行时间方面提供了新的保证。

Nov, 2014

Nyström 方法的递归抽样

本文首次提出一种核 Nystr"om 逼近算法，它在所有核矩阵中都具有可证明的准确性，且其运行时间与训练点数成线性关系，并利用快速递归采样方案，实现了基于支撑点的快速采样，相较于常用技术如均匀采样 Nystr"om 逼近和随机 Fourier 特征方法，找到更精确、低秩的核逼近方法的速度更快。

May, 2016

关于近似核规范相关分析中的列选择

本文研究了利用 Nyström 逼近进行大规模核正交主成分分析（KCCA）中的列选择问题，其中利用训练集的 “地标” 点逼近两个半正定核矩阵。我们提出了一种基于最近为核岭回归开发的统计杠杆得分版本的非均匀采样地标策略，研究了所提出的非均匀采样策略的逼近精度，并开发了一种增量算法，易于探索逼近排名的路径并促进有效的模型选择，并推导了我们方法的样本外映射的核稳定性。在合成数据和实际数据集上的实验结果表明了我们方法的潜力。

Feb, 2016

可扩展核聚类：近似核 k-means

本文提出了一种基于随机化的近似核 K-means 簇算法，其利用采样点与数据集中所有点之间的核相似性来近似聚类中心，实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求，最后利用集成聚类技术进一步提高算法性能。

Feb, 2014

通过 Ridge Leverage Score 抽样进行输入稀疏时间低秩逼近

该研究提出了一种新的基于采样策略的算法来计算矩阵的最优低秩逼近，相较于之前基于随机投影的算法，该方法可适用于稀疏结构等场景，并在核矩阵逼近算法方面表现最优。

Nov, 2015

重新审视 Nystrom 方法以改进大规模机器学习

本篇研究论文旨在重新考虑随机算法用于对称半正定矩阵的低秩逼近，通过实证评估了样本抽样和投影方法的性能质量和运行时间，证明了它们的互补性，在相对误差较低前提下表明了不同采样方法之间的重要区别，并为随机抽样和随机投影方法提供最坏情况的理论边界。

Mar, 2013

低秩核矩阵近似的尖锐分析

本文研究了在正定核框架下的监督学习问题，提出了基于随机矩阵列采样的核矩阵低秩近似方法，此方法可以在 sub-quadratic 的时间复杂度内有效解决核矩阵计算问题，同时保持预测性能不变。

Aug, 2012

通过采样杠杆元素实现更紧凑的低秩近似

本文提出了一种新的随机算法，该算法采用特别偏向采样的方法，使误差最小化，可以在光谱范数下利用输入稀疏性生成 M 的秩 - r 逼近，并具有 better dependence on error ε，是一种高度可并行化的优化方法。此外，本论文探讨了计算两个给定矩阵的积的小秩逼近的新方法和小通信开销的改进算法。

Oct, 2014

核岭回归中快速统计杠杆得分近似

该论文提出了一种基于线性时间算法的方法来精确近似统计杠杆分数，以选取代表性的子样本，运用于 Nyström 近似中，以提高预测准确性和减少计算成本。

Mar, 2021

流式数据的近似核密度估计子线性 RACE 草图

提出 RACE 算法以取代高维数据的核密度估计，通过将一组高维向量压缩成一组整数计数器的小数组来实现。该方法可应用于实际的高维度数据集，相比其他方法具有 10 倍的压缩性能。

Dec, 2019