推进深度主动学习和数据子集选择:用信息理论直觉统一原则
通过研究数据访问模式如何影响模型训练,提出了Active Sampler算法,它可以让训练数据更加集中在有价值的实例附近,实验证明其能够在SVM,特征选择和深度学习中提高训练速度1.6-2.2倍。
Dec, 2015
本研究结合活性学习和增量学习的方法,提出一种基于不确定度的适用于大多数对象检测器的主动学习度量标准,并探讨在样本选择过程中如何解决类别不平衡问题,通过系统评估在PASCAL VOC 2012数据集上,实现对新未标注数据集的持续探索。
Sep, 2018
该论文介绍了一个新的方法,通过将采集函数作为学习预测器并通过强化反馈训练它,以打破模型选择中的恶性循环;该系统由贝叶斯神经网络、自举采集函数、概率状态定义和另一个贝叶斯策略网络组成,可在三个基准数据集上始终发现新的更好的采集函数。
Jun, 2019
本文通过大量经验研究,证明了利用FastText.zip(FTZ)深度模型的后验熵进行主动集合选择对抗采样偏差和各种算法选择具有鲁棒性,并提出了基于深度主动文本分类的简单基线,可用于数据集压缩和半监督/在线学习场景。
Sep, 2019
该研究提出了在主动学习的过程中既利用有标签的数据,也利用无标签的数据进行模型训练的方法,并使用了无监督特征学习和半监督学习的技术,研究表明使用无标签数据进行模型训练在图像分类任务中可以带来比不同获取策略更高的准确度,因此可以得到更小的标签预算。
Nov, 2019
本文旨在探讨如何通过主动学习(AL)技术实现更高效的标签操作的问题,其中包括一些在目前文献中存在的问题,如数据增强方法和SGD等常见方法的应用等,通过在图像分类中新的开源AL工具DISTIL的统一重新实现,我们研究了这些问题,并提出了一些第一手的洞察,以供AL从业者在未来的工作中参考。
Jun, 2021
本研究开发了一种基于支持向量分类的基础池式主动学习器的快速简单的实践方法,旨在解决很少标记数据点的情况下进行模型选择的挑战,并通过加权方法让模型在易于分类数据集和难以分类数据集之间取得平衡的最佳性能。
Dec, 2021
通过开发一个新的算法 COPS,我们提出了一个理论上最佳的解决方案,以最小化从样本数据训练的模型的预期损失。我们的方法在深度学习任务中可以有效地应用,通过使用模型的对数几率来估计采样比例,并通过低密度样本的降权方法来解决模型对错误规范的敏感性挑战。实证实验表明,COPS相对于基线方法具有卓越的性能。
Sep, 2023
通过全面评估当前最先进的深度主动学习方法,我们的研究发现在一般情况下没有单一模型的方法能显著超越基于熵的主动学习方法,甚至一些方法还不如随机抽样。我们深入研究了常常被忽视的方面,如初始预算、预算递增步长和预训练的影响,并揭示了它们在实现卓越结果上的重要性。此外,我们还将评估拓展到其他任务,探索了将主动学习与半监督学习和目标检测相结合的有效性。我们的实验提供了有价值的见解和具体建议,为未来的主动学习研究做出了贡献。通过揭示当前方法的局限性,并理解不同实验设置的影响,我们旨在启发在有限注释预算的现实场景下更高效地训练深度学习模型。这项工作有助于提高主动学习在深度学习中的效果,并使研究人员在应用主动学习时能做出明智的决策。
Mar, 2024