ASPEST:主动学习与选择性预测之间的桥梁
本论文提出了一种基于梯度嵌入和预测校准的主动学习方法Ask-n-Learn,结合数据扩增缓解伪标注期间的确认偏差,通过对基准图像分类任务(CIFAR-10,SVHN,Fashion-MNIST,MNIST)的经验研究,证明了该方法优于最近提出的BADGE算法等现有基线。
Sep, 2020
本文探讨了主动学习中样本标注代价昂贵导致的偏差问题并提出了一种新的校正方法,解释了为何忽略这种偏差也能带来一些经验上的成功,尤其对参数众多的神经网络等少量数据训练情境下,这种偏差反而有益。
Jan, 2021
本研究针对减少标注工作的两种范式:主动学习和自学习,研究它们能否相互受益。在对象识别数据集(包括CIFAR10、CIFAR100和Tiny ImageNet)上的实验证明:对于低的标注预算,主动学习对自学习没有帮助。当标注预算很高时,主动学习和自学习的组合是有益的。
Aug, 2021
该研究通过将主动学习与自监督预训练相结合,并使用称为Balanced Selection(BASE)的算法来解决类不平衡问题,提高图像分类性能,特别适用于工业级大规模数据标记和训练中。
Nov, 2021
提出了一种名为ALFA-Mix的新型批量主动学习方法,它利用分析未标记实例的预测结果中的不一致性来确定具有足够明显特征的实例,证明该方法在图像、视频和非视觉数据的12个基准测试中,在30种不同的设置中优于所有其它主动学习方法,特别是在低数据量情况和自训练视觉转换器方面,ALFA-Mix 的性能优于该领域现有技术的59%和43%。
Mar, 2022
提出了一种新的 $REAL$ 方法,使用代表性伪误差来选择数据实例用于主动学习,从而提高文本分类模型的性能,该方法在五个数据集上实验表明,在各种超参数设置下,$REAL$ 一直优于所有最佳表现基线。
Jul, 2023
我们提出了一种加速大规模预训练的方法,通过在线数据选择策略。我们首次证明了基于模型的数据选择可以减少达到采用均匀采样训练的模型性能所需的总计算量。这种“计算正向”模式的关键洞察是,小型模型可以很好地代表大型模型的损失,因此可以大大降低用于评分数据的计算量,同时为学习者提供了效率提升。这些数据选择策略在数据集和任务上也具有很强的普适性,为重新使用现成的模型和训练序列来分摊数据评分开销开辟了途径。我们的方法ClassAct和ActiveCLIP在JFT上训练视觉分类器和ALIGN上训练多模态模型时,分别需要少46%和51%的训练更新和少25%的总计算量。最后,我们的范式无缝适用于大规模图像-文本数据集的策划,在多个多模态迁移任务和预训练制度上实现了新的最优效果。
Dec, 2023
通过改进深度学习模型的标签和训练效率,此研究旨在增强深度学习的实用性。具体地,研究基于信息论原理的数据子集选择技术,包括主动学习和主动采样,其中主动学习提高了标签效率,而主动采样增强了训练效率,并系统研究了这些技术在深度学习中的应用。
Jan, 2024
本研究提出了一种新的主动学习方法SUPClust,旨在识别类别之间的决策边界上的点,通过针对这些点收集最具信息性以优化模型对复杂决策区域的预测,实验证明标记这些点可以显著提高模型性能,即使在强类别不平衡的情况下。
Mar, 2024