大样本逻辑回归的最优子采样

Feb, 2017

Optimal Subsampling for Large Sample Logistic Regression

HaiYing Wang, Rong Zhu, Ping Ma

TL;DR本文提出了一种针对逻辑回归模型的快速子抽样算法，利用优化方法降低计算时间，通过理论和实验分析验证其性能。

Abstract

For massive data, the family of subsampling algorithms is popular to downsize the data volume and reduce computational burden. Existing studies focus on approximating the ordinary least squares estimate in linear regression, where statistical leverage scores are often used to define

subsampling logistic regression maximum likelihood estimate optimization computational efficiency

发现论文，激发创造

最优子样本逻辑回归更高效的估计

本文提出了一个基于子样本的改进逻辑回归估计方法，通过使用 2018 年 Wang 等人提出的最优子采样概率。无论是渐近结果还是数值结果都说明新的估计量具有更高的估计效率。我们还提出了一种基于泊松子采样的新算法，该算法不需要一次性近似最优子采样概率，避免了计算问题，并且当随机存储器的可用空间不足以存储全部数据时有计算优势。如果采样速率（子样本大小与全部数据样本大小的比例）不收敛于零，渐近分布表明泊松子采样可以产生更高效的估计量。我们进一步使用一个初始估计器来校正未加权估计器的偏差。我们还证明，即使初始估计器是不一致的，如果模型是正确的，则会产生一致和渐近正常的结果估计量。

Feb, 2018

逻辑回归的可证明准确性随机抽样算法

在统计学和机器学习领域，逻辑回归是一种广泛应用于二分类任务的监督学习技术。本研究提出一种基于随机抽样的简单算法，针对逻辑回归问题，确保对模型的预测概率和整体差异都能得到高质量的近似。研究分析了当采用杠杆得分对观测数据进行抽样时，逻辑回归的预测概率的属性，并证明可以通过样本规模远小于总观测数据量来实现准确的近似。通过全面的实证评估验证了我们的理论发现，研究为在大规模数据集上高效近似逻辑回归的预测概率提供了实用和计算高效的解决方案。

Feb, 2024

本地病例 - 对照抽样：解决非平衡数据集中的高效子采样问题

本文提出了一种利用接受 - 拒绝机制，在特征空间中调整局部类别平衡的逻辑回归子采样方法，其偏倚的子采样通过后期分析参数调整得到校正。实验证明，该方法在处理分类问题中的显著类别不平衡时，能够比标准的病例 - 对照子采样获得更好的效果。

Jun, 2013

核心集学习现实检查

本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较，并发现了它们有效性上的不一致性，很多情况下这些方法都没有超过简单的均匀抽样。

Jan, 2023

高维正则化回归中的自举和子抽样分析

研究使用重新采样方法估计统计模型的不确定性，探讨其在高维监督回归任务中的性能，特别关注广义线性模型和过参数化区域下的预测一致性与可靠性。

Feb, 2024

高维广义线性模型中的鲁棒估计

该研究介绍了一种基于变换的确定性鲁棒初始估计方法及其对应的迭代加权最小二乘算法，用于解决存在异常值时基于最大似然估计的广义线性模型中初始估计不准确的问题。

Sep, 2017

污染线性模型下的快速和鲁棒最小二乘估计

本论文提出了一种基于数据点权重的子采样算法，通过控制高影响因子的点对残差误差的贡献，以加速最小二乘估计。实验证明该算法在处理受损观测值时相对于现有的算法有更好的近似性能。

Jun, 2014

逻辑回归估计的样本复杂度

透过研究样本复杂度，我们发现逻辑回归模型的参数估计受到维数和逆温度的影响，其样本复杂度曲线在逆温度上具有两个临界点，明确地分割低、中、高温度区间。

Jul, 2023

广义线性问题的可扩展近似

本文讨论了随机优化中的种群风险以及解决大规模问题中经验风险计算的困难，提出了一种基于随机梯度下降算法的解决方案，以 OLS 估计器为基础进行最小化种群风险的近似。

Nov, 2016

高维逻辑回归现代极大似然理论

本研究证明在逻辑回归模型中，当样本量和自变量个数的比例变大时，MLE 的偏差和方差均远大于经典预测所得，常用的 LRT 也未能满足卡方分布，因此现有的软件包所得出的推论是不可靠的。

Mar, 2018