论统计、计算与可扩展性

Sep, 2013

On statistics, computation and scalability

Michael I. Jordan

TL;DR该论文探讨了统计过程如何设计以在计算能力上可扩展以处理大规模的数据集，重点考虑了分而治之的方法和基于凸松弛的层次结构等算法以及它们对统计学的影响。

Abstract

How should statistical procedures be designed so as to be scalable computationally to the massive datasets that are increasingly the norm? When coupled with the requirement that an answer to an inferential questi

statistical procedures scalability massive datasets computational perspectives divide-and-conquer methodology

发现论文，激发创造

将数据化简为充分统计量的计算含义

该研究论文探讨在估计任务中使用数据简化为足够的统计数据会使得原本易于计算的问题变得困难，并讨论其与图形模型估计相关的实现和理论计算机科学等研究关系。

Sep, 2014

利用凸松弛进行计算与统计折衷

利用凸松弛技术提出了一个可以减少大规模数据上的推断算法运行时间的计算框架，同时保证推断的精度，为研究者提供了一个利用大数据优势的方法。

Nov, 2012

可扩展贝叶斯推断模式

本文探讨了扩展贝叶斯推断的统一原则、模式和直觉，并回顾了使用现代计算资源进行可扩展推断的现有工作。从这些想法的分类中，我们表征了为设计可扩展推断过程证明成功的一般原则，并对前景进行了评论。

Feb, 2016

利用学习和推理的统计数据

该研究论文探讨了在面对包含海量数据集和需要超级计算机执行的模拟时，如何利用数据与模型之间的固有统计学特性来提高学习和推理的效率，并提出了相应的基于随机梯度的算法来检测概率、提高 MCMC 的更新效率和决定参数更新的接受或拒绝，同时探讨了在大数据和大模拟时代中 Bayesian 方法所面临的一些计算方面的挑战。

Feb, 2014

大数据计算的统计方法选择性综述：分布式计算、子抽样和小批量技术

该论文选择性地回顾了大数据分析的统计计算方法。该文重点研究了三类统计计算方法：(1) 分布式计算，(2) 子采样方法，以及 (3) 小批量梯度技术。

Mar, 2024

交互式数据分析中的虚假发现预防是困难的

论文表明，在自适应环境下，维护统计查询的计算有效性和正确性是计算难度的源泉，这对现今大型协作研究环境中防止错误发现的挑战具有本质性质。

Aug, 2014

大数据分析挑战

这篇文献讨论了大数据的显著特征及其对统计和计算方法的范式变革产生的影响，强调了高置信度集中最稀疏解的可行性，并指出大多数针对大数据的统计方法中的外生性假设无法被验证，容易导致错误的统计推断和错误的科学结论。

Aug, 2013

学习排序中的计算和统计权衡

本文对于大规模和异构化的现代数据集中的信息排序问题提出了一种可靠性保证的机制，通过有序的信息刻画，充分利用计算资源进行高效程度排名的学习并在特定数据结构下进行了验证。

Aug, 2016

统计与可解释性：一个有成效的联盟

本研究提出使用标准统计工具来解决说明性文献中普遍存在的问题，通过利用统计估计器来定义解释，从而实现理论保证和评估指标的制定，以定量评估解释的质量。此方法避免了目前文献中普遍存在的主观人为评估。此外，我们认为不确定性量化对于提供稳健可信的解释至关重要，并且可以通过诸如自助法等经典统计方法在这个框架中实现。然而，需要注意的是，虽然统计学提供了宝贵的贡献，但它并不能解决所有问题。未来的研究方向可以聚焦于一些开放性问题，如为解释定义目的或建立适用于对策或对抗场景的统计框架。

Apr, 2024

自适应数据分析中维护统计学有效性

关于如何在自适应数据分析中保证统计推断的有效性的研究，使用隐私保护技术协调估计值，并在估计指数数量的期望时取得了指数级的改进，适用于多重假设检验和虚假发现率控制。

Nov, 2014