基于主动学习的自适应采样的数据集量化
提出了一种名为Learning To Sample框架的新型基于学习的主动学习方法,它能够通过不确定性和多样性的优化整合来主动选择最具代表性和信息量的样本,并在图像分类、薪资水平预测和实体解析等三个任务上验证了其有效性,并且特别适用于类别高度不平衡的数据集,还能够有效解决现有主动学习方法中出现的冷启动问题。
Sep, 2019
本文通过大量经验研究,证明了利用FastText.zip(FTZ)深度模型的后验熵进行主动集合选择对抗采样偏差和各种算法选择具有鲁棒性,并提出了基于深度主动文本分类的简单基线,可用于数据集压缩和半监督/在线学习场景。
Sep, 2019
数据无关量化方法的统计数据不均衡问题限制了其在神经网络压缩方面的应用;本文提出了 Diverse Sample Generation(DSG)方法以在分布和样本层面缓解这一问题,其可以应用于当前一些最先进的量化方法中,如 AdaRound。在大规模图像分类任务上,经过合成数据校准的模型的性能可以达到通过真实数据校准的模型的性能,甚至在一些情况下表现更好。
Mar, 2021
研究了一种高效的批量主动学习算法,该算法结合不确定性和多样性概念,在批量设置中易于扩展,并与先前研究中使用的批量大小(100K-1M)相比提高模型训练效率。同时,还证明了相关采样方法的标签复杂度保证,该方法在特定情况下几乎等同于我们的采样方法。
Jul, 2021
本文提出一种基于coreset selection的quantization-aware adaptive coreset selection (ACS) 方法,以提高quantization-aware training的训练效率。该方法通过error vector score和disagreement score量化每个样本的重要性,并根据这些指标选择数据进行训练,在多个网络和数据集上获得了显著的提高。
Jun, 2023
本文介绍了一种自适应子抽样方法AdaSelection,能够快速训练大规模深度学习模型,同时不会牺牲模型性能,该方法能够灵活地组合任意数量的基准子抽样方法,并在每次迭代中结合方法级重要性和内部方法样本级重要性,我们通过在不同类型的输入和任务上进行分类任务测试以及回归任务测试来展示我们的方法的有效性。与业界标准基线相比,AdaSelection始终显示出优异的性能。
Jun, 2023
通过开发一个新的算法 COPS,我们提出了一个理论上最佳的解决方案,以最小化从样本数据训练的模型的预期损失。我们的方法在深度学习任务中可以有效地应用,通过使用模型的对数几率来估计采样比例,并通过低密度样本的降权方法来解决模型对错误规范的敏感性挑战。实证实验表明,COPS相对于基线方法具有卓越的性能。
Sep, 2023
通过改进深度学习模型的标签和训练效率,此研究旨在增强深度学习的实用性。具体地,研究基于信息论原理的数据子集选择技术,包括主动学习和主动采样,其中主动学习提高了标签效率,而主动采样增强了训练效率,并系统研究了这些技术在深度学习中的应用。
Jan, 2024