数据矩阵的近最优逐元素采样

NIPSNov, 2013

Near-Optimal Entrywise Sampling for Data Matrices

Dimitris Achlioptas, Zohar Karnin, Edo Liberty

TL;DR通过压缩稀疏矩阵，考虑矩阵草图问题，提供针对矩阵非零元素的抽样分布，用最小信息计算以任意顺序呈现且高度可压缩的草图矩阵，且在渐进意义下可以与最优离线分布相竞争。

Abstract

We consider the problem of selecting non-zero entries of a matrix $A$ in order to produce a sparse sketch of it, $B$, that minimizes $\|A-B\|_2$. For large $m \times n$ matrices, such that $n \gg m$ (for example, representing $n$ observations over $m$ attributes) we give sampling distributions that exhibit four important properties. First, they have closed f

matrix sketching sparse matrix compressible offline distribution streaming model

发现论文，激发创造

高度不均匀采样下低秩矩阵补全的逐项界限

低秩矩阵补全问题关注使用稀疏观测的一组观测条目来估计矩阵中未观测的条目。我们考虑非均匀设置，其中观测条目根据高度变化的概率进行采样，可能具有不同的渐近尺度。我们证明了在结构化采样概率下，使用较小的子矩阵而不是整个矩阵上运行估计算法通常更好，有时是最优的。特别地，在某些条件下，我们证明了适用于每个条目的错误上界，这些错误上界与最小化下界相匹配。我们提供了数值实验证实了我们的理论发现。

Feb, 2024

简单且确定的矩阵草图

该研究论文介绍了一种基于矩阵素描的流式算法，可用于近似项目频率，具有确定性、易于实现和基本易于证明的优点，并在计算上具有竞争力，比目前广泛使用的方法能够得到更为精确的矩阵素描。

Jun, 2012

距离矩阵的最优低秩逼近

本文研究了距离矩阵的低秩近似算法及其样本复杂度，在实验中得到了验证。

Jun, 2019

随机元素级矩阵稀疏化注释

本文提出一种基于随机采样的算法用于对矩阵进行稀疏处理，同时利用分布与矩阵元素平方和绝对值相关的信息提高了近似精度。

Apr, 2014

学习 CountSketch 中的位置

本文提出了优化稀疏矩阵的学习算法，通过优化矩阵中非零项的位置和值来实现低秩逼近、回归和二阶优化。

Jun, 2023

当大数据实际上是低秩的，或者是某个函数生成的矩阵的逐个近似

通过对两个 m 维变量的光滑函数进行采样生成的矩阵的低秩逼近是本文关注的重点。我们否定了先前文献中对一个特定类别的解析函数所提出的论点，即这些矩阵可以独立于 m 具有准确的逐个元素的秩逼近。我们在理论上解释了支持该论点的数值结果，并描述了三个更窄的函数类别，其中 n×n 由函数生成的矩阵可以在与维度 m 无关的情况下以 O (log (n)ε^(-2) polylog (ε^(-1))) 的逐个元素误差逼近。我们还将我们的论点扩展到了由 m 维变量的多线性积生成的张量的低秩张量列逼近。我们在 Transformer 神经网络的注意力低秩逼近的背景下讨论了我们的结果。

Jul, 2024

在矩阵中识别有影响力的条目

提出一个针对矩阵完成问题的概率分布，它能够显示矩阵中最具影响力的项；从理论和实验两个角度证明了这种方法的有效性和实用性。

Oct, 2013

来自一般确定性采样模式的矩阵补全

该论文针对低秩矩阵完成算法的理论保证存在严格且近似的情况，可以应用于任何确定性采样计划。通过引入一个图形来解决观察条目的性能问题，论文从理论和实验角度论证了算法的成功性。

Jun, 2023

凸优化法实现精确矩阵补全

通过解决凸优化问题，可以从数据矩阵的不完全采样中完美地恢复低秩矩阵，并且这个结果被扩展到了压缩感知。

May, 2008

滑动窗口下的最优矩阵草图

我们介绍了 DS-FD 算法，它在归一化的、基于序列的滑动窗口上实现了最优的 O (d/ε) 空间限制。我们还提出了适用于基于时间和非归一化滑动窗口的匹配上限和下限空间限制，证明了 DS-FD 算法在各种滑动窗口模型中的广泛性和最优性。通过广泛的实验验证了我们的理论，从理论和实证两方面证实了我们算法的正确性和有效性。

May, 2024