有关算法子采样的计量经济学视角

Jul, 2019

有关算法子采样的计量经济学视角

An Econometric Perspective on Algorithmic Subsampling

Sokbae Lee, Serena Ng

TL;DR这篇论文研究数据分析中的线性回归和数据素描技术，探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断，发现虽然算法上的优化子集无法适用于预测和推断，但通过统计学方法可以提供建议的子集大小，并通过实验表明，使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。

Abstract

Datasets that are terabytes in size are increasingly common, but computer bottlenecks often frustrate a complete analysis of the data. While more data are better than less, diminishing returns suggest that we may not need terabytes of data to estimate a parameter or test a hypothesis. But which rows of data should we analyze, and might an arbitrary subset of

data analysis linear regression data sketching subspace embedding sample size

发现论文，激发创造

草图算法的统计性质

该论文介绍了一种称为 “sketching” 的数据压缩技术，该技术通过随机投影将大型数据集压缩成较小的替代数据集，然后进行统计分析，该方法特别适用于大规模的线性回归问题。

Jun, 2017

自适应采样在加速机器学习算法中的应用

巨大数据时代需要高效的机器学习算法，本论文表明，通过使用一种特殊的随机替代品，可以在几乎不降低质量的情况下，代替计算密集型子程序。

Sep, 2023

手绘子空间聚类

本文介绍了一种随机化方案，名为 Sketch-SC，它是一种针对高维大容量数据的 SC 的加速计算方法，通过使用随机投影来压缩数据矩阵以实现快速而准确的大规模 SC。在实际数据上的性能分析及广泛的数值测试证实了 Sketch-SC 的潜力和与最先进的可扩展的 SC 方法相比的竞争性能。

Jul, 2017

核心集学习现实检查

本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较，并发现了它们有效性上的不一致性，很多情况下这些方法都没有超过简单的均匀抽样。

Jan, 2023

算法协同作用的统计视角

本文在大数据集上提出了算法杠杆效应的采样方法，通过样本采集分布来提高算法的计算效率，并在固定预测因子的线性回归模型中，提出了一种简单有效的框架来评估算法杠杆的统计性能。其结果表明核心的采样方法的统计性能既不会因为采用杠杆采样而主导也不会因采用均匀采样而优于杠杆采样，但其在最坏分析情况下，杠杆采样与均匀采样相比都能提供更好的结果。在理论性能基础上，本文提出并分析了两种新的杠杆算法，并在合成和真实数据集上进行了详细的实证评估。

Jun, 2013

随机投影的精确表达式：低秩逼近与随机牛顿

利用随机矩阵的谱分析最新进展，我们开发了一种新的技术，提供了随机投影矩阵的期望值的确切表达式，这些表达式可以用来表征多种常见的机器学习任务中的降维性能，包括低秩估计和迭代随机优化等。我们的结果适用于多种流行的草图方法，包括高斯和 Rademacher 草图，结果表明，我们推导出的表达式反映了这些草图方法的实际性能，甚至体现了较低阶效应和恒定因子。

Jun, 2020

用于安全编码回归的迭代素描

本文提出了一种分布式加速线性回归的方法，通过使用随机化草稿技术和改善异步系统中的顽固者韧性来确保安全性，同时应用随机齐次正交矩阵和子采样块来安全获取信息和减少回归问题的维度。

Aug, 2023

普通最小二乘问题中基于随机草图的统计角度分析

对大规模最小二乘问题的解决方法采用随机草图算法的统计和算法方面进行了考虑，提出了算法和统计两种框架并比较其性能，并且证明了在使用随机投影和随机抽样算法的情况下，当样本数为 $r$，且 $p<r<n$ 时，算法误差与原始问题的误差相同。

Jun, 2014

具有统计保证的随机降维

研究论文通过研究快速执行和数据利用的算法，探索了大型模型和数据利用的有效维度减少策略，以及提高泛化和分布鲁棒性的数据增强方法。

Oct, 2023

隐私学习子空间

该研究探讨了差分隐私算法如何应用于低维线性子空间，以发现数据的低维结构并尽可能避免在隐私或准确性方面的代价。

May, 2021