有效批次主动学习的数据 Shapley 估值

Apr, 2021

有效批次主动学习的数据 Shapley 估值

Data Shapley Valuation for Efficient Batch Active Learning

Amirata Ghorbani, James Zou, Andre Esteva

TL;DR本文介绍一种名为 Active Data Shapley 的批处理主动学习策略，通过使用线性时间计算从未标注的数据集中预先选择最高价值的点，以显着提高主动学习的效率，同时保持高性能。

Abstract

Annotating the right set of data amongst all available data points is a key challenge in many machine learning applications. batch active learning is a popular approach to address this, in which batches of unlabeled dat

batch active learning active data shapley shapley value efficiency unlabeled data

发现论文，激发创造

大规模批量主动学习

研究了一种高效的批量主动学习算法，该算法结合不确定性和多样性概念，在批量设置中易于扩展，并与先前研究中使用的批量大小（100K-1M）相比提高模型训练效率。同时，还证明了相关采样方法的标签复杂度保证，该方法在特定情况下几乎等同于我们的采样方法。

Jul, 2021

贝叶斯批次主动学习作为稀疏子集逼近

本研究提出一种基于贝叶斯批量主动学习方法来解决大规模监督模型中标签获取成本高的问题，从而利用大量未标记数据来改善模型性能。此方法通过逼近模型参数的完整数据后验概率，并使用随机投影技术来推广到任意模型，从而使批处理的数据选择更加多样，有效降低了计算复杂度，并在多个大规模回归和分类任务上得到了证实。

Aug, 2019

一种新的批量主动学习方法及其应用于合成孔径雷达数据集

使用 Dijkstra 的 Annulus Core-Set 和 LocalMax 相结合的批处理主动学习方法，在维持模型准确度的同时提高了效率，应用于 FUSAR-Ship 和 OpenSARShip 数据集的分类，并超越了基于 CNN 的现有方法。

Jul, 2023

数据评估的加速 Shapley 值近似算法

通过利用机器学习问题的结构性质，我们提出了一种更高效的近似数据 Shapley 值的方法，此方法在不同学习设置中包括随机梯度下降和凸、非凸损失函数中证明了其近似 Shapley 值的准确性收敛性。实验证明，这种方法在保持数据的近似价值和排名的同时，提高了近似速度最高可达 9.9 倍，并且在使用小的子集进行精确评估时，对预训练网络的效率更高。

Nov, 2023

利用行列式点过程进行批量主动学习

本文提出了一种使用确定性点过程的新的原则性批处理主动学习方法，以生成样本的多样性批次。我们还开发了可行的算法来近似 DPP 分布的模式，并提供了理论保证。我们在几个数据集上的实验表明了我们这种方法的价值。

Jun, 2019

多样化小批量主动学习

该研究致力于解决减少有标签的训练数据来训练监督式分类模型的问题，通过使用 Active Learning 和 K-means 聚类算法，采用 mini-batch Active Learning 方法来快速有效地选取对模型具有信息量和多样性的训练样例，以达到相当或更好的性能表现。

Jan, 2019

可伸缩的物体检测主动学习

本研究描述了一个可扩展的主动学习系统，旨在改善在自动驾驶中监督学习的数据效率，主要围绕深度神经网络、有监督学习、主动学习、自动驾驶和数据效率展开，同时探讨了一些挑战及其解决方法，并简要描述了未来发展方向。

Apr, 2020

基于池的批次主动学习中的快速速率

本文在 batch active learning 场景下，提出了一种解决 informativeness 和 diversity 之间权衡问题的算法，理论上可以在 pool-based active learning 中得到最优结果，并且这也是第一篇使用这种方式明确量化在 pool-based 场景中 batch active learning 统计表现的论文。

Feb, 2022

基于对抗 Shapley 值的在线课堂增量式连续学习

本文为实现在在线数据流中不断学习新类别而进行的在线类增量设置而贡献了一种新的 Adversarial Shapley 值评分方法，该方法可以为记忆数据样本评分，以便维护先前观察类别的潜在决策边界（以保持学习稳定性和避免遗忘），同时干扰当前正在学习的新类别的潜在决策边界（以鼓励可塑性和最优学习新的类别边界）从而在各种数据集上展现出比现有回放基础的连续学习方法具有竞争性或改进的性能。

Aug, 2020

使用转移的 Shapley 值对大语言模型进行微调的数据选择

提出了一种名为 TS-DShapley 的算法，通过一种高效的基于采样的方法和一种数据价值信息的传递方法，大大减少了 Shapley 基于数据评估的计算成本，可以对大型预训练语言模型进行微调，并在基准自然语言理解（NLU）数据集上提升了语言模型的性能。

Jun, 2023