海量数据可扩展的自助法

Dec, 2011

A Scalable Bootstrap for Massive Data

Ariel Kleiner, Ameet Talwalkar, Purnamrita Sarkar, Michael I. Jordan

TL;DR该论文介绍了一种名为 Bag of Little Bootstraps（BLB）的新程序，它包括引导和子抽样的特点，旨在提供一种稳健、计算高效的评估估计量的方法。BLB 适用于现代并行和分布式计算体系结构，同时保留引导的通用适用性和统计效率。

Abstract

The bootstrap provides a simple and powerful means of assessing the quality of estimators. However, in settings involving large datasets---which are increasingly prevalent---the →

bootstrap estimators computation bag of little bootstraps distributed computing

发现论文，激发创造

大数据引导

本文提出了一种新的 BLB 算法，该算法融合了自助法和子采样的特点，以获得一种健壮、计算效率高的评估估计器质量的方法，适用于现代并行和分布式计算架构，保留了自助法的通用适用性、统计效率和有利的理论属性。

Jun, 2012

大数据子采样双重自助法

本文通过构建基于 BLB 和快速双重自助法的方法，提出了一种新的重采样方法 —— 子采样双重自助法，其在运行时间、样本覆盖和自动实现等方面优于 BLB，并在数值模拟和数据说明中证明了其优势。

Aug, 2015

可扩展贝叶斯加权自助法

本论文提出一种加权贝叶斯自助法（WBB）用于机器学习和统计学的不确定性量化，可通过对多维后验分布进行采样实现，计算速度快，可扩展性好，并对正则化回归、趋势滤波和深度学习等众多机器学习和统计模型进行了应用。

Mar, 2018

高维正则化回归中的自举和子抽样分析

研究使用重新采样方法估计统计模型的不确定性，探讨其在高维监督回归任务中的性能，特别关注广义线性模型和过参数化区域下的预测一致性与可靠性。

Feb, 2024

使用自助法量化经验排名的权威性

本文介绍了 bootstrap 方法用于衡量交叉属性的排序、影响因素、性能与预测区间等方面的应用，讨论了传统类别 bootstrap 方法的不足并提出改进方法，并以基因组学为例验证其优越性。

Nov, 2009

分布式统计学习的引导模型聚合

本文提出两种方差降低方法对分布式、隐私保护学习中使用的基于自助法的方法进行改善，包括权重 M - 估计器等。进行了理论和实证分析以证明我们的方法。

Jul, 2016

关于大数据的马尔科夫链蒙特卡罗方法

本文综述了最近在机器学习和计算统计学领域提出的两类解决元数据分析中基于独立假设的马尔科夫链蒙特卡罗方法的方法：分而治之的方法和基于子采样的算法，并提出了一种新颖的基于子采样的方法，并在某些统计模型的有利情况下，每次迭代可以要求少于 $O (n)$ 数量级的数据点似然性评估，然而，在目标后验分布的 Bernstein-von Mises 逼近存在缺陷的情况下，我们目前只能提出能在基于子采样的方法中表现良好的方法，而在其他情况下这仍然是一个未解决的挑战。

May, 2015

估计方程的广义自助法

本文介绍了一种广义的自助法技术，用于通过求解估计方程获得的估计量。我们讨论了该技术的一些特例，包括 Efron 的经典自助法、删除 djackknife 和贝叶斯自助法变体。通过示例讨论了该技术的使用。证明了该方法的分布一致性，并获得了重新采样方差估计的渐进表示。

Apr, 2005

高维广义线性模型中的鲁棒估计

该研究介绍了一种基于变换的确定性鲁棒初始估计方法及其对应的迭代加权最小二乘算法，用于解决存在异常值时基于最大似然估计的广义线性模型中初始估计不准确的问题。

Sep, 2017

集成线性插值器：集成的作用

插值器不稳定，论文研究了集合稳定如何改善插值器的泛化性能，Bagging 作为一种随机化集合方法能够并行实现，通过引入基于乘法自助法的 Bagged 最小二乘估计器，对最小二乘估计器求平均，得到该方法。该文进一步探讨了 Sketching 和 Bagging 对样品内外预测风险的影响，并发现 Bagging 作为一种形式的隐式正则化手段，能够有效减小方差。

Sep, 2023