Sep, 2023

弱监督下数据选择的统计理论研究

TL;DR给定一个大小为 $N$ 的样本,对于统计估计或学习,通常有必要选择一个更小的大小 $n<N$ 的子样本。我们假设给定 $N$ 个未标记的样本和一个能够比随机猜测更好地预测标签 $y_i$ 的 “替代模型”。我们的目标是选择一个子样本集,用于训练模型并通过正则化经验风险最小化进行标签预测。通过在真实和合成数据的混合数值实验以及在低维和高维渐近情况下的数学推导,我们展示:(i)数据选择可以非常有效,某些情况下甚至可以击败在整个样本上进行训练;(ii)某些常见的数据选择方法(例如无偏加权子抽样或基于影响函数的子抽样)可能明显不够优化。