本地病例 - 对照抽样:解决非平衡数据集中的高效子采样问题
本文提出了一个基于子样本的改进逻辑回归估计方法,通过使用 2018 年 Wang 等人提出的最优子采样概率。无论是渐近结果还是数值结果都说明新的估计量具有更高的估计效率。我们还提出了一种基于泊松子采样的新算法,该算法不需要一次性近似最优子采样概率,避免了计算问题,并且当随机存储器的可用空间不足以存储全部数据时有计算优势。如果采样速率(子样本大小与全部数据样本大小的比例)不收敛于零,渐近分布表明泊松子采样可以产生更高效的估计量。我们进一步使用一个初始估计器来校正未加权估计器的偏差。我们还证明,即使初始估计器是不一致的,如果模型是正确的,则会产生一致和渐近正常的结果估计量。
Feb, 2018
在半监督学习设置下,使用案例 - 对照抽样方法采集到的带有结果和协变量的标记数据集以及仅包含协变量的未标记数据集,可以通过构建观测到的标记和未标记数据的似然函数,并通过迭代算法获得最大似然估计,从而识别出截距参数并同时提高斜率参数的估计效率。
Feb, 2024
本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较,并发现了它们有效性上的不一致性,很多情况下这些方法都没有超过简单的均匀抽样。
Jan, 2023
提出了一种名为 Subsampling MCMC 的 Markov Chain Monte Carlo(MCMC)框架,其中通过对 m 个观测数据的随机子集进行估计,得到 n 个观测数据的似然函数,利用控制变量的高效无偏估计量来校正估计偏差并用于两种 Pseudo-marginal 算法,从而从扰动后验中采样,该方法在采样效率上显著优于标准 MCMC,在计算预算相同的情况下,而且此方法比其他文献中提出的 MCMC 子抽样方法表现更优秀。
Apr, 2014
在这项研究中,我们确定了线性分类器(支持向量机)在高维度情况下的泛化曲线的确切分析表达式,并对于数据的类别不平衡性、数据的第一和第二时刻以及所考虑的性能指标的影响给出了锐利的预测。我们表明,涉及数据的欠采样和过采样的混合策略会提高性能。通过数值实验,我们展示了我们理论预测在真实数据集、更深层次的架构和基于无监督概率模型的采样策略上的相关性。
May, 2024
通过研究分布偏移现象,揭示在非参数分类的情况下,算法无法超越欠采样算法的性能极限,除非训练和测试数据分布高度重叠或算法利用有关分布偏移的附加结构,在标签移位的情况下,有最优的欠采样算法,而在群组协变量移位的情况下,当群组分布之间的重叠较小时,有最优的欠采样算法。
May, 2022
该研究提出了基于分层取样的策略来选取测试集的子集进行标注,以尽可能准确地估计分类器的性能,相对于简单随机取样,这些策略可以显著减少分类器精度估计中方差的误差,并且在有限标注资源下比随机取样需要更少的样本来估计分类器的准确性,有些情况下减少的样本数量高达 60%。
Jul, 2016