最优子样本逻辑回归更高效的估计

Feb, 2018

最优子样本逻辑回归更高效的估计

More Efficient Estimation for Logistic Regression with Optimal Subsample

HaiYing Wang

TL;DR本文提出了一个基于子样本的改进逻辑回归估计方法，通过使用 2018 年 Wang 等人提出的最优子采样概率。无论是渐近结果还是数值结果都说明新的估计量具有更高的估计效率。我们还提出了一种基于泊松子采样的新算法，该算法不需要一次性近似最优子采样概率，避免了计算问题，并且当随机存储器的可用空间不足以存储全部数据时有计算优势。如果采样速率（子样本大小与全部数据样本大小的比例）不收敛于零，渐近分布表明泊松子采样可以产生更高效的估计量。我们进一步使用一个初始估计器来校正未加权估计器的偏差。我们还证明，即使初始估计器是不一致的，如果模型是正确的，则会产生一致和渐近正常的结果估计量。

Abstract

In this paper, we propose improved estimation method for logistic regression based on subsamples taken according the optimal subsampling probabil

logistic regression subsampling probabilities estimation method poisson subsampling asymptotic distribution

发现论文，激发创造

大样本逻辑回归的最优子采样

本文提出了一种针对逻辑回归模型的快速子抽样算法，利用优化方法降低计算时间，通过理论和实验分析验证其性能。

Feb, 2017

本地病例 - 对照抽样：解决非平衡数据集中的高效子采样问题

本文提出了一种利用接受 - 拒绝机制，在特征空间中调整局部类别平衡的逻辑回归子采样方法，其偏倚的子采样通过后期分析参数调整得到校正。实验证明，该方法在处理分类问题中的显著类别不平衡时，能够比标准的病例 - 对照子采样获得更好的效果。

Jun, 2013

逻辑回归的可证明准确性随机抽样算法

在统计学和机器学习领域，逻辑回归是一种广泛应用于二分类任务的监督学习技术。本研究提出一种基于随机抽样的简单算法，针对逻辑回归问题，确保对模型的预测概率和整体差异都能得到高质量的近似。研究分析了当采用杠杆得分对观测数据进行抽样时，逻辑回归的预测概率的属性，并证明可以通过样本规模远小于总观测数据量来实现准确的近似。通过全面的实证评估验证了我们的理论发现，研究为在大规模数据集上高效近似逻辑回归的预测概率提供了实用和计算高效的解决方案。

Feb, 2024

核心集学习现实检查

本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较，并发现了它们有效性上的不一致性，很多情况下这些方法都没有超过简单的均匀抽样。

Jan, 2023

逻辑回归估计的样本复杂度

透过研究样本复杂度，我们发现逻辑回归模型的参数估计受到维数和逆温度的影响，其样本复杂度曲线在逆温度上具有两个临界点，明确地分割低、中、高温度区间。

Jul, 2023

基于 LSH 的新型无偏高效采样器和估计器用于对数线性模型中的分区函数计算

该研究提出了一种新的采样方案和无偏估计器，利用局部敏感哈希（LSH）在次线性时间内准确估算分配函数，实现了高效的样本生成和处理，进而提高了训练实际语言模型的速度和精度。

Mar, 2017

Less Is Better: 通过影响函数进行无权数据子采样

本研究提出了一种新的非加权数据子采样（UIDS）方法，并证明通过我们的方法获取的子集模型可以优于完整集模型。同时，我们开发了一种概率取样方案，以控制接近经验分布的所有分布的最坏情况风险，实验结果证明了我们方法在文本分类，图像分类，点击率预测等各种任务中优于现有的子采样方法。

Dec, 2019

高效数据子采样加速 MCMC

提出了一种名为 Subsampling MCMC 的 Markov Chain Monte Carlo（MCMC）框架，其中通过对 m 个观测数据的随机子集进行估计，得到 n 个观测数据的似然函数，利用控制变量的高效无偏估计量来校正估计偏差并用于两种 Pseudo-marginal 算法，从而从扰动后验中采样，该方法在采样效率上显著优于标准 MCMC，在计算预算相同的情况下，而且此方法比其他文献中提出的 MCMC 子抽样方法表现更优秀。

Apr, 2014

高维正则化回归中的自举和子抽样分析

研究使用重新采样方法估计统计模型的不确定性，探讨其在高维监督回归任务中的性能，特别关注广义线性模型和过参数化区域下的预测一致性与可靠性。

Feb, 2024

高维逻辑回归现代极大似然理论

本研究证明在逻辑回归模型中，当样本量和自变量个数的比例变大时，MLE 的偏差和方差均远大于经典预测所得，常用的 LRT 也未能满足卡方分布，因此现有的软件包所得出的推论是不可靠的。

Mar, 2018