大样本逻辑回归的最优子采样
本文提出了一个基于子样本的改进逻辑回归估计方法,通过使用 2018 年 Wang 等人提出的最优子采样概率。无论是渐近结果还是数值结果都说明新的估计量具有更高的估计效率。我们还提出了一种基于泊松子采样的新算法,该算法不需要一次性近似最优子采样概率,避免了计算问题,并且当随机存储器的可用空间不足以存储全部数据时有计算优势。如果采样速率(子样本大小与全部数据样本大小的比例)不收敛于零,渐近分布表明泊松子采样可以产生更高效的估计量。我们进一步使用一个初始估计器来校正未加权估计器的偏差。我们还证明,即使初始估计器是不一致的,如果模型是正确的,则会产生一致和渐近正常的结果估计量。
Feb, 2018
在统计学和机器学习领域,逻辑回归是一种广泛应用于二分类任务的监督学习技术。本研究提出一种基于随机抽样的简单算法,针对逻辑回归问题,确保对模型的预测概率和整体差异都能得到高质量的近似。研究分析了当采用杠杆得分对观测数据进行抽样时,逻辑回归的预测概率的属性,并证明可以通过样本规模远小于总观测数据量来实现准确的近似。通过全面的实证评估验证了我们的理论发现,研究为在大规模数据集上高效近似逻辑回归的预测概率提供了实用和计算高效的解决方案。
Feb, 2024
本文提出了一种利用接受 - 拒绝机制,在特征空间中调整局部类别平衡的逻辑回归子采样方法,其偏倚的子采样通过后期分析参数调整得到校正。实验证明,该方法在处理分类问题中的显著类别不平衡时,能够比标准的病例 - 对照子采样获得更好的效果。
Jun, 2013
本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较,并发现了它们有效性上的不一致性,很多情况下这些方法都没有超过简单的均匀抽样。
Jan, 2023
该研究介绍了一种基于变换的确定性鲁棒初始估计方法及其对应的迭代加权最小二乘算法,用于解决存在异常值时基于最大似然估计的广义线性模型中初始估计不准确的问题。
Sep, 2017
本论文提出了一种基于数据点权重的子采样算法,通过控制高影响因子的点对残差误差的贡献,以加速最小二乘估计。实验证明该算法在处理受损观测值时相对于现有的算法有更好的近似性能。
Jun, 2014
本文讨论了随机优化中的种群风险以及解决大规模问题中经验风险计算的困难,提出了一种基于随机梯度下降算法的解决方案,以 OLS 估计器为基础进行最小化种群风险的近似。
Nov, 2016
本研究证明在逻辑回归模型中,当样本量和自变量个数的比例变大时,MLE 的偏差和方差均远大于经典预测所得,常用的 LRT 也未能满足卡方分布,因此现有的软件包所得出的推论是不可靠的。
Mar, 2018