本地病例 - 对照抽样：解决非平衡数据集中的高效子采样问题

Jun, 2013

本地病例 - 对照抽样：解决非平衡数据集中的高效子采样问题

Local case-control sampling: Efficient subsampling in imbalanced data sets

William Fithian, Trevor Hastie

TL;DR本文提出了一种利用接受 - 拒绝机制，在特征空间中调整局部类别平衡的逻辑回归子采样方法，其偏倚的子采样通过后期分析参数调整得到校正。实验证明，该方法在处理分类问题中的显著类别不平衡时，能够比标准的病例 - 对照子采样获得更好的效果。

Abstract

For classification problems with significant class imbalance, subsampling can reduce computational costs at the price of inflated variance in estimating model parameters. We propose a method for →

subsampling logistic regression class imbalance feature space estimator

发现论文，激发创造

最优子样本逻辑回归更高效的估计

本文提出了一个基于子样本的改进逻辑回归估计方法，通过使用 2018 年 Wang 等人提出的最优子采样概率。无论是渐近结果还是数值结果都说明新的估计量具有更高的估计效率。我们还提出了一种基于泊松子采样的新算法，该算法不需要一次性近似最优子采样概率，避免了计算问题，并且当随机存储器的可用空间不足以存储全部数据时有计算优势。如果采样速率（子样本大小与全部数据样本大小的比例）不收敛于零，渐近分布表明泊松子采样可以产生更高效的估计量。我们进一步使用一个初始估计器来校正未加权估计器的偏差。我们还证明，即使初始估计器是不一致的，如果模型是正确的，则会产生一致和渐近正常的结果估计量。

Feb, 2018

大样本逻辑回归的最优子采样

本文提出了一种针对逻辑回归模型的快速子抽样算法，利用优化方法降低计算时间，通过理论和实验分析验证其性能。

Feb, 2017

基于病例对照研究的逻辑回归有效半监督推断

在半监督学习设置下，使用案例 - 对照抽样方法采集到的带有结果和协变量的标记数据集以及仅包含协变量的未标记数据集，可以通过构建观测到的标记和未标记数据的似然函数，并通过迭代算法获得最大似然估计，从而识别出截距参数并同时提高斜率参数的估计效率。

Feb, 2024

核心集学习现实检查

本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较，并发现了它们有效性上的不一致性，很多情况下这些方法都没有超过简单的均匀抽样。

Jan, 2023

高效数据子采样加速 MCMC

提出了一种名为 Subsampling MCMC 的 Markov Chain Monte Carlo（MCMC）框架，其中通过对 m 个观测数据的随机子集进行估计，得到 n 个观测数据的似然函数，利用控制变量的高效无偏估计量来校正估计偏差并用于两种 Pseudo-marginal 算法，从而从扰动后验中采样，该方法在采样效率上显著优于标准 MCMC，在计算预算相同的情况下，而且此方法比其他文献中提出的 MCMC 子抽样方法表现更优秀。

Apr, 2014

恢复平衡：基于原则的数据欠采样 / 过采样用于最佳分类

在这项研究中，我们确定了线性分类器（支持向量机）在高维度情况下的泛化曲线的确切分析表达式，并对于数据的类别不平衡性、数据的第一和第二时刻以及所考虑的性能指标的影响给出了锐利的预测。我们表明，涉及数据的欠采样和过采样的混合策略会提高性能。通过数值实验，我们展示了我们理论预测在真实数据集、更深层次的架构和基于无监督概率模型的采样策略上的相关性。

May, 2024

非参数分类中欠采样是一种极小化最优鲁棒干预的方法

通过研究分布偏移现象，揭示在非参数分类的情况下，算法无法超越欠采样算法的性能极限，除非训练和测试数据分布高度重叠或算法利用有关分布偏移的附加结构，在标签移位的情况下，有最优的欠采样算法，而在群组协变量移位的情况下，当群组分布之间的重叠较小时，有最优的欠采样算法。

May, 2022

潜变量混合的分布鲁棒损失

该研究使用凸优化方法控制给定大小的所有子人群的最坏情况表现，从而提高模型的泛化能力。实证研究表明该方法可在未知子人群中推广。

Jul, 2020

高维正则化回归中的自举和子抽样分析

研究使用重新采样方法估计统计模型的不确定性，探讨其在高维监督回归任务中的性能，特别关注广义线性模型和过参数化区域下的预测一致性与可靠性。

Feb, 2024

有限标记资源下的分类器风险评估

该研究提出了基于分层取样的策略来选取测试集的子集进行标注，以尽可能准确地估计分类器的性能，相对于简单随机取样，这些策略可以显著减少分类器精度估计中方差的误差，并且在有限标注资源下比随机取样需要更少的样本来估计分类器的准确性，有些情况下减少的样本数量高达 60％。

Jul, 2016