将数据化简为充分统计量的计算含义

Sep, 2014

将数据化简为充分统计量的计算含义

Computational Implications of Reducing Data to Sufficient Statistics

Andrea Montanari

TL;DR该研究论文探讨在估计任务中使用数据简化为足够的统计数据会使得原本易于计算的问题变得困难，并讨论其与图形模型估计相关的实现和理论计算机科学等研究关系。

Abstract

Given a large dataset and an estimation task, it is common to pre-process the data by reducing them to a set of sufficient statistics. Thi

dataset sufficient statistics estimation task computational tractability graphical models

发现论文，激发创造

论统计、计算与可扩展性

该论文探讨了统计过程如何设计以在计算能力上可扩展以处理大规模的数据集，重点考虑了分而治之的方法和基于凸松弛的层次结构等算法以及它们对统计学的影响。

Sep, 2013

利用学习和推理的统计数据

该研究论文探讨了在面对包含海量数据集和需要超级计算机执行的模拟时，如何利用数据与模型之间的固有统计学特性来提高学习和推理的效率，并提出了相应的基于随机梯度的算法来检测概率、提高 MCMC 的更新效率和决定参数更新的接受或拒绝，同时探讨了在大数据和大模拟时代中 Bayesian 方法所面临的一些计算方面的挑战。

Feb, 2014

利用凸松弛进行计算与统计折衷

利用凸松弛技术提出了一个可以减少大规模数据上的推断算法运行时间的计算框架，同时保证推断的精度，为研究者提供了一个利用大数据优势的方法。

Nov, 2012

算法统计

本文介绍了算法统计学、充分统计量和最小充分统计量的算法理论。它基于由统计模型和模型到数据编码两部分构成的两部分编码，它们可以是隐式或显式。同时，文章也强化和阐述了关于 “Kolmogorov 结构函数” 和 “绝对非随机对象” 的早期结果。

Jun, 2000

问题简化，重正化和记忆

介绍减少计算问题复杂性的方法，以及它们与重整化、缩放和不可逆统计力学之间的联系。分析了几种统计稳定情况；对于时间相关的问题，平均通常失效，必须通过适当的记忆和随机强迫项来增强平均方程。描述了近似方法并给出了示例。

Mar, 2005

有关算法子采样的计量经济学视角

这篇论文研究数据分析中的线性回归和数据素描技术，探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断，发现虽然算法上的优化子集无法适用于预测和推断，但通过统计学方法可以提供建议的子集大小，并通过实验表明，使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。

Jul, 2019

交互式数据分析中的虚假发现预防是困难的

论文表明，在自适应环境下，维护统计查询的计算有效性和正确性是计算难度的源泉，这对现今大型协作研究环境中防止错误发现的挑战具有本质性质。

Aug, 2014

大数据计算的统计方法选择性综述：分布式计算、子抽样和小批量技术

该论文选择性地回顾了大数据分析的统计计算方法。该文重点研究了三类统计计算方法：(1) 分布式计算，(2) 子采样方法，以及 (3) 小批量梯度技术。

Mar, 2024

自适应数据分析中维护统计学有效性

关于如何在自适应数据分析中保证统计推断的有效性的研究，使用隐私保护技术协调估计值，并在估计指数数量的期望时取得了指数级的改进，适用于多重假设检验和虚假发现率控制。

Nov, 2014

统计学习和估计的在线与分布式算法的基本极限

本文探讨了机器学习中的信息约束，包括内存、通信、数据部分读取等约束对算法性能的影响，并得出针对不同情形，在特定限制下，算法表现将不如无限制情形的结论。

Nov, 2013