本文提出一种新的主动学习算法,将 CNN 模型的输出从 softmax 替换为 Dirichlet 值,实现从未标记数据中提取最具信息量的标记数据集,该方法在多项数据集和医学图像识别领域中与其他主动学习方法相比均具有更高的性能表现和易于实现且不需要大量计算资源的优点。
Jul, 2020
本文评估最近采用神经网络的主动学习策略在文本分类中的性能与缺陷,并探讨了训练小数据集的深度神经网络 (DNN) 对于实现有效的主动学习的重要性,并为当前研究中存在的差距提出了几个研究问题。
Aug, 2020
本研究提出了一种基于神经网络解释能力的主动学习方法 ALDEN,该方法可根据样本的多样性解释性选择样本并查询其标签,使得高质量模型的训练成为可能。实验证明,ALDEN 在文本分类问题上比其他主动学习方法表现更好。
Aug, 2021
提出一种新的批次模式主动学习算法 —— 判别式主动学习法(DAL),并将其应用在神经网络和大批次查询的情境中,尝试通过将标记集合和未标记的数据池区分开来作为选择样本的依据来执行主动学习,结果表明我们的方法在中等和大批次查询中与最先进的方法相当,并且在实现简单的同时还可以扩展到除分类任务之外的其他领域,同时,我们的实验还表明在相对较大的批次中,当批量大小较大时,当前现有的最先进方法均不比不确定性采样明显更好,从而推翻了一些最近文献中报道的结果。
Jul, 2019
在针对文本分类的活跃学习技术中,选择正确的文本表示、分类器以及评估指标是至关重要的,因为不同的因素可能会导致活跃学习技术的有效性受到限制。
Mar, 2024
本论文提出了一种基于梯度嵌入和预测校准的主动学习方法 Ask-n-Learn,结合数据扩增缓解伪标注期间的确认偏差,通过对基准图像分类任务(CIFAR-10,SVHN,Fashion-MNIST,MNIST)的经验研究,证明了该方法优于最近提出的 BADGE 算法等现有基线。
Sep, 2020
本文是第一次系统地研究了主动学习在文本生成方面的应用,研究表明现有的主动学习策略在文本生成场景下效果不佳,无法持续超越随机示例选择的基准线。
May, 2023
该研究介绍了两种用于文本分类和标记任务的技术,可以显著减少深度学习中主动学习繁重的计算资源需求,通过伪标签和蒸馏模型实现更高性能的模型训练。
May, 2022
本文提出了第一个基于多样性原则的主动学习查询策略来缓解抽象文本摘要中昂贵的注释成本,并分析了自学习的效果。该策略可以帮助提高 ROUGE 和一致性分数。
Jan, 2023
本研究旨在证明在相同实验条件下,不同类型的主动学习算法(基于不确定性、多样性和委员会的),与随机采样基准相比,产生的收益不一致,这种性能度量的差异性可能导致结果与以前报告的结果不一致,强正则化下,主动学习方法在各种实验条件下显示出微小或无优势,并提出一套关于如何评估主动学习算法的建议,以确保结果在实验条件变化下具有重复性和稳健性。
Feb, 2020