该论文探讨了统计过程如何设计以在计算能力上可扩展以处理大规模的数据集,重点考虑了分而治之的方法和基于凸松弛的层次结构等算法以及它们对统计学的影响。
Sep, 2013
该研究论文探讨了在面对包含海量数据集和需要超级计算机执行的模拟时,如何利用数据与模型之间的固有统计学特性来提高学习和推理的效率,并提出了相应的基于随机梯度的算法来检测概率、提高 MCMC 的更新效率和决定参数更新的接受或拒绝,同时探讨了在大数据和大模拟时代中 Bayesian 方法所面临的一些计算方面的挑战。
Feb, 2014
利用凸松弛技术提出了一个可以减少大规模数据上的推断算法运行时间的计算框架,同时保证推断的精度,为研究者提供了一个利用大数据优势的方法。
Nov, 2012
本文介绍了算法统计学、充分统计量和最小充分统计量的算法理论。它基于由统计模型和模型到数据编码两部分构成的两部分编码,它们可以是隐式或显式。同时,文章也强化和阐述了关于 “Kolmogorov 结构函数” 和 “绝对非随机对象” 的早期结果。
Jun, 2000
介绍减少计算问题复杂性的方法,以及它们与重整化、缩放和不可逆统计力学之间的联系。分析了几种统计稳定情况;对于时间相关的问题,平均通常失效,必须通过适当的记忆和随机强迫项来增强平均方程。描述了近似方法并给出了示例。
Mar, 2005
这篇论文研究数据分析中的线性回归和数据素描技术,探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断,发现虽然算法上的优化子集无法适用于预测和推断,但通过统计学方法可以提供建议的子集大小,并通过实验表明,使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。
Jul, 2019
论文表明,在自适应环境下,维护统计查询的计算有效性和正确性是计算难度的源泉,这对现今大型协作研究环境中防止错误发现的挑战具有本质性质。
Aug, 2014
该论文选择性地回顾了大数据分析的统计计算方法。该文重点研究了三类统计计算方法:(1) 分布式计算,(2) 子采样方法,以及 (3) 小批量梯度技术。
Mar, 2024
关于如何在自适应数据分析中保证统计推断的有效性的研究,使用隐私保护技术协调估计值,并在估计指数数量的期望时取得了指数级的改进,适用于多重假设检验和虚假发现率控制。
Nov, 2014
本文探讨了机器学习中的信息约束,包括内存、通信、数据部分读取等约束对算法性能的影响,并得出针对不同情形,在特定限制下,算法表现将不如无限制情形的结论。
Nov, 2013