弱监督下数据选择的统计理论研究

Sep, 2023

弱监督下数据选择的统计理论研究

Towards a statistical theory of data selection under weak supervision

Germain Kolossov, Andrea Montanari, Pulkit Tandon

TL;DR给定一个大小为 $N$ 的样本，对于统计估计或学习，通常有必要选择一个更小的大小 $n<N$ 的子样本。我们假设给定 $N$ 个未标记的样本和一个能够比随机猜测更好地预测标签 $y_i$ 的 “替代模型”。我们的目标是选择一个子样本集，用于训练模型并通过正则化经验风险最小化进行标签预测。通过在真实和合成数据的混合数值实验以及在低维和高维渐近情况下的数学推导，我们展示：（i）数据选择可以非常有效，某些情况下甚至可以击败在整个样本上进行训练；（ii）某些常见的数据选择方法（例如无偏加权子抽样或基于影响函数的子抽样）可能明显不够优化。

Abstract

Given a sample of size $N$, it is often useful to select a subsample of smaller size $ndata selection step is useful to reduce the requirements of data labeling and the computational complexity of learning. We assume to be g

data selection subsampling surrogate model labels asymptotics

发现论文，激发创造

弱监督训练子集选择

本篇论文研究了弱监督机器学习方法，提出了利用预训练数据表示结合剪枝统计学方法选择高质量弱标签数据的子集，优化了弱监督模型的表现，提升了 19% 的准确率。

Jun, 2022

高维统计学习和最优化中基于 $l_1$ 约束下最佳子集选择和持续性

研究最佳子集选择问题，探讨基于经验风险最小化的方法以及 $l_1$ 约束下是否可以得到最佳子集，最后进行了高维度模拟研究，提出了一种 “增强型” 分类算法。

Feb, 2007

具有损失不确定性的样本选择及其在带噪声标签学习中的应用

本研究提出了一种无标签学习的新方法，将区间估计引入了样本选择过程，以更好地探索未被充分选择的正确标注但看似贴错标签的较大损失数据和代表性差的数据，提高了误标噪声下的学习鲁棒性。

Jun, 2021

Less Is Better: 通过影响函数进行无权数据子采样

本研究提出了一种新的非加权数据子采样（UIDS）方法，并证明通过我们的方法获取的子集模型可以优于完整集模型。同时，我们开发了一种概率取样方案，以控制接近经验分布的所有分布的最坏情况风险，实验结果证明了我们方法在文本分类，图像分类，点击率预测等各种任务中优于现有的子采样方法。

Dec, 2019

有关算法子采样的计量经济学视角

这篇论文研究数据分析中的线性回归和数据素描技术，探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断，发现虽然算法上的优化子集无法适用于预测和推断，但通过统计学方法可以提供建议的子集大小，并通过实验表明，使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。

Jul, 2019

使用真实数据和替代数据进行学习的规模定律

整合替代数据对模型训练的测试误差有显著减少作用，所需使用经验风险最小化进行加权至关重要，模型训练中真实与替代数据混合的测试误差可通过标度律预测最优加权及替代数据的利益。

Feb, 2024

通过贝叶斯数据选择实现模型训练加速

使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器，解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题，提高了模型的训练效率。

Aug, 2023

小数据，大决策：小数据情境下的模型选择

本文通过实验证明，相比于之前研究中通常考虑模型大小因素对性能的影响，训练数据集的大小对模型性能的影响同样显著，实验结果发现，训练更小的数据子集可以带来更可靠的模型选择决策同时降低计算成本，并能估算出常见数据集在现代神经网络结构下的最小描述长度，为采用奥卡姆剃刀原则进行负责的模型选择提供了可能性。

Sep, 2020

语言模型数据选择调查

该论文综述了大型语言模型、数据选择方法、经验证据、大规模数据选择研究和未来研究方向的相关领域，旨在为新老研究人员提供入门点，加速数据选择领域的进展。

Feb, 2024

带正则的体积抽样岭回归下采样

通过协方差矩阵和预测误差，我们提出了一种选择向量子集的新方法，该方法可以使得使用该子集的岭估计在整个数据集上的平均预测误差具有强大的统计保证，而无需昂贵的标签表。同时，我们对一种联合子抽样过程进行扩展，称之为卷积抽样，并加速迭代过程，以实现与主要独立同分布子抽样过程之一的杠杆分数基本相同的效率。最后，我们理论上和实验上证明了，当标签昂贵时，卷积抽样比任何独立同分布抽样具有明显的优势。

Oct, 2017