基于主动学习的自适应采样的数据集量化

Jul, 2024

基于主动学习的自适应采样的数据集量化

Dataset Quantization with Active Learning based Adaptive Sampling

Zhenghao Zhao, Yuzhang Shang, Junyi Wu, Yan Yan

TL;DR我们通过提出一种新的主动学习的自适应采样策略（DQAS）来优化样本选择，同时使用来自数据集量化的最终阶段的特征空间来生成更精确的数据集区间。我们对多个数据集进行了全面评估，结果表明我们的方法优于现有的数据集压缩方法。

Abstract

deep learning has made remarkable progress recently, largely due to the availability of large, well-labeled datasets. However, the training on such datasets elevates costs and computational demands. To address th

发现论文，激发创造

学习采样：一种主动学习框架

提出了一种名为Learning To Sample框架的新型基于学习的主动学习方法，它能够通过不确定性和多样性的优化整合来主动选择最具代表性和信息量的样本，并在图像分类、薪资水平预测和实体解析等三个任务上验证了其有效性，并且特别适用于类别高度不平衡的数据集，还能够有效解决现有主动学习方法中出现的冷启动问题。

Sep, 2019

深度主动分类中的采样偏差：实证研究

本文通过大量经验研究，证明了利用FastText.zip（FTZ）深度模型的后验熵进行主动集合选择对抗采样偏差和各种算法选择具有鲁棒性，并提出了基于深度主动文本分类的简单基线，可用于数据集压缩和半监督/在线学习场景。

Sep, 2019

多样化样本生成以获得精准的无数据量化

数据无关量化方法的统计数据不均衡问题限制了其在神经网络压缩方面的应用；本文提出了 Diverse Sample Generation（DSG）方法以在分布和样本层面缓解这一问题，其可以应用于当前一些最先进的量化方法中，如 AdaRound。在大规模图像分类任务上，经过合成数据校准的模型的性能可以达到通过真实数据校准的模型的性能，甚至在一些情况下表现更好。

Mar, 2021

大规模批量主动学习

研究了一种高效的批量主动学习算法，该算法结合不确定性和多样性概念，在批量设置中易于扩展，并与先前研究中使用的批量大小（100K-1M）相比提高模型训练效率。同时，还证明了相关采样方法的标签复杂度保证，该方法在特定情况下几乎等同于我们的采样方法。

Jul, 2021

自适应核心集选择的高效量化感知训练

本文提出一种基于coreset selection的quantization-aware adaptive coreset selection (ACS) 方法，以提高quantization-aware training的训练效率。该方法通过error vector score和disagreement score量化每个样本的重要性，并根据这些指标选择数据进行训练，在多个网络和数据集上获得了显著的提高。

Jun, 2023

AdaSelection：通过数据子采样加速深度学习训练

本文介绍了一种自适应子抽样方法AdaSelection，能够快速训练大规模深度学习模型，同时不会牺牲模型性能，该方法能够灵活地组合任意数量的基准子抽样方法，并在每次迭代中结合方法级重要性和内部方法样本级重要性，我们通过在不同类型的输入和任务上进行分类任务测试以及回归任务测试来展示我们的方法的有效性。与业界标准基线相比，AdaSelection始终显示出优异的性能。

Jun, 2023

数据集精简遇见可证明的子集选择

本文提出了一种在数据集精馏中初始化样品集的可证明的基于采样的方法，并将数据子集选择的思想与数据集精馏相结合，通过相对贡献的实例的概念优化性能。

Jul, 2023

数据集量化

用于训练任何神经网络架构的新的数据集压缩方法 (DQ) 能够通过压缩大规模数据集生成精简小数据集，实现了无损模型训练的最新压缩比，可用于视觉任务和语言任务。

Aug, 2023

通过不确定性估计进行最佳样本选择及其在深度学习中的应用

通过开发一个新的算法 COPS，我们提出了一个理论上最佳的解决方案，以最小化从样本数据训练的模型的预期损失。我们的方法在深度学习任务中可以有效地应用，通过使用模型的对数几率来估计采样比例，并通过低密度样本的降权方法来解决模型对错误规范的敏感性挑战。实证实验表明，COPS相对于基线方法具有卓越的性能。

Sep, 2023

推进深度主动学习和数据子集选择：用信息理论直觉统一原则

通过改进深度学习模型的标签和训练效率，此研究旨在增强深度学习的实用性。具体地，研究基于信息论原理的数据子集选择技术，包括主动学习和主动采样，其中主动学习提高了标签效率，而主动采样增强了训练效率，并系统研究了这些技术在深度学习中的应用。

Jan, 2024