通过简单而有效的方法不仅可以降低主动学习过程的计算成本,还能保持模型性能,从而优化大规模数据集的标注效率。
Jan, 2024
通过使用小型代理模型,可以在深度学习中实现数据选择的计算效率显著提高。在多个数据集上验证 "通过代理选择" 方法(SVP),获得了一个数量级的运行时间改进和最终误差不断的结果。
Jun, 2019
该研究提出了一种新的主动微调任务,在预训练 - 微调范式下注重选择注释样本,通过优化连续空间中的参数模型来选择类似于整个未标记池的数据子集并保持足够的多样性,实验证明了该方法在计算机视觉任务上具有领先的性能和高效率。
Mar, 2023
提出了一种名为 ALFA-Mix 的新型批量主动学习方法,它利用分析未标记实例的预测结果中的不一致性来确定具有足够明显特征的实例,证明该方法在图像、视频和非视觉数据的 12 个基准测试中,在 30 种不同的设置中优于所有其它主动学习方法,特别是在低数据量情况和自训练视觉转换器方面,ALFA-Mix 的性能优于该领域现有技术的 59%和 43%。
Mar, 2022
我们提出了一种加速大规模预训练的方法,通过在线数据选择策略。我们首次证明了基于模型的数据选择可以减少达到采用均匀采样训练的模型性能所需的总计算量。这种 “计算正向” 模式的关键洞察是,小型模型可以很好地代表大型模型的损失,因此可以大大降低用于评分数据的计算量,同时为学习者提供了效率提升。这些数据选择策略在数据集和任务上也具有很强的普适性,为重新使用现成的模型和训练序列来分摊数据评分开销开辟了途径。我们的方法 ClassAct 和 ActiveCLIP 在 JFT 上训练视觉分类器和 ALIGN 上训练多模态模型时,分别需要少 46%和 51%的训练更新和少 25%的总计算量。最后,我们的范式无缝适用于大规模图像 - 文本数据集的策划,在多个多模态迁移任务和预训练制度上实现了新的最优效果。
Dec, 2023
该研究介绍了两种用于文本分类和标记任务的技术,可以显著减少深度学习中主动学习繁重的计算资源需求,通过伪标签和蒸馏模型实现更高性能的模型训练。
May, 2022
本文提出了一种新的主动学习框架,通过有限量的标签训练实例以增量学习的方式构建具有最佳特征表示的竞争性分类器。该方法利用深度卷积神经网络进行主动学习,设计了一种成本效益的样本选择策略,通过选取高置信度的无标签样本自动迭代分配伪标签来改善分类性能。实验证明,该框架在人脸识别和物体分类等两个数据集上取得了有希望的成果。
Jan, 2017
本文探讨使用预训练模型进行主动学习任务中的歧义消除,发现预训练模型使用基于不确定性的主动学习时所需标注数量降低至非预训练模型的五分之一,并且可以通过在预训练的表示空间中选择具有消除歧义的特征属性的数据样本来获得这种性能提升。
Apr, 2022
预训练的基于转换器的语言模型和图神经网络在贝叶斯优化主动学习框架中表现良好,仅通过筛选超大型库中的 0.6%,可以识别到排名前 50000 位化合物的 58.97%,与先前的最先进基准相比提高了 8%,在结构基础和配体基础药物发现中具有卓越的性能,可提高基于主动学习的分子虚拟筛选的准确性和样本效率。
Sep, 2023
我们提出了一个二阶段的主动微调框架,其中包括核心样本选择以增加多样性,以及边界样本选择以增加不确定性,通过在高维特征空间中识别伪类别中心、创新去噪方法和迭代策略,无需真实标签即可选择需要注释的样本,我们的综合实验证据量化地证明了我们的方法比现有基线表现更好。
Mar, 2024