深度主动分类中的采样偏差:实证研究
本文研究了基于池化的主动学习方法,提出了一种新的算法,使用神经网络在表征层上的激活空间中的最远优先遍历,从池中查询连续的点,相比于随机抽样和传统的不确定性抽样技术,对 MNIST、CIFAR-10 和 CIFAR-100 三个数据集的样本复杂度都有显著提高。
Nov, 2017
通过全面评估当前最先进的深度主动学习方法,我们的研究发现在一般情况下没有单一模型的方法能显著超越基于熵的主动学习方法,甚至一些方法还不如随机抽样。我们深入研究了常常被忽视的方面,如初始预算、预算递增步长和预训练的影响,并揭示了它们在实现卓越结果上的重要性。此外,我们还将评估拓展到其他任务,探索了将主动学习与半监督学习和目标检测相结合的有效性。我们的实验提供了有价值的见解和具体建议,为未来的主动学习研究做出了贡献。通过揭示当前方法的局限性,并理解不同实验设置的影响,我们旨在启发在有限注释预算的现实场景下更高效地训练深度学习模型。这项工作有助于提高主动学习在深度学习中的效果,并使研究人员在应用主动学习时能做出明智的决策。
Mar, 2024
通过半监督深度学习与主动学习相结合的方法,使用尽可能少的标记样本,同时利用熵最小化对未标记样本进行训练,在 MNIST 数据集上仅使用 300 个标记样本实现 2.06% 的误差率和 1000 个标记样本实现 1.06% 的误差率。该方法可以获得高准确性的敏捷标注过程,同时节省标记成本。
Mar, 2018
本文介绍了一种基于活动学习方法的独特自然语言处理方式,可以有效利用较少的标记数据点来培训神经网络,最终达到与标记数据点相同的分类准确率。通过找到局部聚类的占主导地位的集合,该方法可以选择训练的样本,具有更高的性能和灵活性,且不受数据集的影响。
Jan, 2022
该论文提出了简单而高效的方法来减轻主动学习中的采样偏差,同时实现最先进的精度和模型鲁棒性。通过引入有监督对比主动学习和选择具有多样的特性表示的信息性数据样本的无偏查询策略,我们的方法:SCAL 和 DFM,实验表明,所提出的方法降低了采样偏差,在主动学习设置中,查询计算速度比基于贝叶斯的对抗式学习快 26 倍,比 CoreSet 快 11 倍。所提出的 SCAL 方法在对抗性数据集转移和预测真实分布方面具有显着的优势。
Sep, 2021
本文提出使用大规模集成主动学习方法来扩展数据子集搜索,通过在数百个模型中重复使用中间训练检查点来实现。实验结果表明,优化训练数据分布可以对大规模视觉任务带来显著的益处。
May, 2019
本篇论文就深度主动学习进行了大规模实证研究,针对多种任务和数据集、模型以及获取函数,证实贝叶斯主动学习方法在许多方面都优于传统的不确定性采样方法。
Aug, 2018
通过改进深度学习模型的标签和训练效率,此研究旨在增强深度学习的实用性。具体地,研究基于信息论原理的数据子集选择技术,包括主动学习和主动采样,其中主动学习提高了标签效率,而主动采样增强了训练效率,并系统研究了这些技术在深度学习中的应用。
Jan, 2024
本文研究在序列标注上采用迁移学习和主动学习来减少注释预算的可行性,并通过 Bayesian 不确定性估计方法和 Monte Carlo Dropout 选项在深度预训练模型的主动学习框架中进行了广泛的实证研究,并发现了不同类型模型的最佳组合。此外,我们还展示了在主动学习期间获取实例的全尺寸 Transformer 可以被替换为简化版本,这可以提供更好的计算性能,降低了应用深度主动学习的障碍。
Jan, 2021
在自动驾驶数据集中,采用主动学习策略可以解决数据不平衡、冗余和高维数据的挑战。我们展示了使用信息熵查询来选择信息丰富的样本,旨在降低注释成本和提高模型性能的有效性。我们在 nuScenes 数据集上使用 BEVFusion 模型进行了实验,将主动学习与随机抽样进行比较,并证明信息熵查询在大多数案例中表现优异。该方法在减少多数类和少数类之间的性能差距方面特别有效。类别特定的分析揭示了对有限数据预算进行注释资源的有效配置,强调选择多样性和信息丰富的数据用于模型训练的重要性。我们的发现表明,在资源受限的环境中,信息熵查询是选择增强模型学习的数据的一种有前途的策略。
Jan, 2024