有限记忆下的统计推断：一项调查

Dec, 2023

有限记忆下的统计推断：一项调查

Statistical Inference with Limited Memory: A Survey

Tomer Berg, Or Ordentlich, Ofer Shayevitz

TL;DR本文综述了在统计推断中存在的内存限制对性能的影响，包括假设检验、参数估计和分布特性检验 / 估计等几个典型问题，总结了该领域内的主要研究成果，并提取了一些算法构建的基本模块和推导下限的有用技术。

Abstract

The problem of statistical inference in its various forms has been the subject of decades-long extensive research. Most of the effort has been focused on characterizing the behavior as a function of the number of available samples, with far less attention given to the effect of

statistical inference memory limitations hypothesis testing parameter estimation distribution property testing/estimation

发现论文，激发创造

统计学习和估计的在线与分布式算法的基本极限

本文探讨了机器学习中的信息约束，包括内存、通信、数据部分读取等约束对算法性能的影响，并得出针对不同情形，在特定限制下，算法表现将不如无限制情形的结论。

Nov, 2013

推理的统计物理学：阈值和算法

介绍了推断问题中的相变和统计物理之间的联系，详细阐述了类似 Ising 模型的推断问题，以及解决图和网络上的聚类和稀疏估计问题的应用。

Nov, 2015

在数据流模型中测试分布属性

在标准访问模型和条件访问模型中，当测试算法的内存受到限制时，我们研究分布测试。我们提供了一个样本复杂性和空间复杂性之间的权衡，用于在根据条件访问预言进行抽样时测试身份。我们还展示了我们可以有效地学习具有几乎最优的样本存储限制的单调分布的简洁表示。此外，我们还展示了单调分布的算法可以扩展到更大的可分解分布类。

Sep, 2023

利用学习和推理的统计数据

该研究论文探讨了在面对包含海量数据集和需要超级计算机执行的模拟时，如何利用数据与模型之间的固有统计学特性来提高学习和推理的效率，并提出了相应的基于随机梯度的算法来检测概率、提高 MCMC 的更新效率和决定参数更新的接受或拒绝，同时探讨了在大数据和大模拟时代中 Bayesian 方法所面临的一些计算方面的挑战。

Feb, 2014

算法性能无假设测试的限制

对于限定的数据量，我们研究了算法评估与比较的理论极限，发现在黑盒测试下无法客观评价算法性能，除非可用数据点数远大于样本量。在评估特定训练模型性能方面则较为简单，只需要保留一组验证数据即可。同样地，我们探讨了算法稳定性假设是否足以解决问题，结果发现只有在高稳定性范围内，模型才能基本无差别。最后，我们还针对多个算法的比较问题也得出了类似的理论困难。

Feb, 2024

自适应数据分析中维护统计学有效性

关于如何在自适应数据分析中保证统计推断的有效性的研究，使用隐私保护技术协调估计值，并在估计指数数量的期望时取得了指数级的改进，适用于多重假设检验和虚假发现率控制。

Nov, 2014

基于仿真的推断基准测试

通过建立合适的性能度量标准的基准，我们评估了一些最新的利用神经网络和经典近似贝叶斯计算方法的方法，发现性能度量的选择关键，即使是最先进的算法也有很大的改进空间，顺序估计提高了样本效率，神经网络方法通常表现更好，但没有均匀的最佳算法。

Jan, 2021

持续模型学习的情节记忆

本研究探讨在具有有限内存容量的情境下，如何运用基于分层贝叶斯推断的模型选择，以及利用存储在记忆库中的数据解决模型选择中的基本问题。

Dec, 2017

有关算法子采样的计量经济学视角

这篇论文研究数据分析中的线性回归和数据素描技术，探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断，发现虽然算法上的优化子集无法适用于预测和推断，但通过统计学方法可以提供建议的子集大小，并通过实验表明，使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。

Jul, 2019

自适应推断：理论限制和未开发的机会

提出了第一个量化自适应推理算法效率和性能提升机会规模的理论框架，通过经验证据展示了在计算机视觉和自然语言处理任务中可以实现 10-100 倍的效率提升而不会造成任何性能损失，同时提供了关于通过自适应推理状态空间的最佳选择和设计来提高可实现的效率提升的见解。

Feb, 2024