来自弱和强标注者的主动学习
研究活动学习的算法,其中标签器不仅可以返回不正确的标签,还可以放弃标记,利用放弃响应提出的算法在噪声和放弃率的自然假设下分析了其统计一致性和查询复杂度,并与下限相结合,证明在某些技术条件下,它实现了近乎最佳的查询复杂度 。
Oct, 2016
本文提出一种新的主动学习算法,将 CNN 模型的输出从 softmax 替换为 Dirichlet 值,实现从未标记数据中提取最具信息量的标记数据集,该方法在多项数据集和医学图像识别领域中与其他主动学习方法相比均具有更高的性能表现和易于实现且不需要大量计算资源的优点。
Jul, 2020
该研究提出了一种针对深度神经网络的主动学习技术,使用一个单独的网络对样本进行评分选择,提高模型对错标记的容忍度,同时通过自监督和多任务学习等方法缓解数据不足的问题。
Oct, 2020
本文介绍了一种新的机器学习辅助标注方法,即Active WeaSuL。该方法使用专家定义的规则来估算整个数据集的概率标签,并在弱监督模型容易出错的几个点上迭代提供真实标签以优化模型性能。实验证明,Active WeaSuL比其他方法更适用于获取标记数据困难的情况下。
Apr, 2021
提出一种通过标签噪声的泛化界限选择信息量最大的标注者,以实现在较低成本下达到更高的泛化准确性;算法在五个UCI数据集和一个真实的众包数据集中展示了最新的性能。
May, 2021
本文提出了一种基于概率生成模型的能够估计多个噪声偏差的部分标注工具并扩展了程序化弱监督的基础,通过对3个文本分类和6个对象分类任务的评估,证明了部分标注的效果可达到8.6%的平均准确率提高,进而探讨了部分标注在零样本对象分类任务中的应用以及与最新零样本学习方法相比的效果。
Jun, 2021
本研究针对减少标注工作的两种范式:主动学习和自学习,研究它们能否相互受益。在对象识别数据集(包括CIFAR10、CIFAR100和Tiny ImageNet)上的实验证明:对于低的标注预算,主动学习对自学习没有帮助。当标注预算很高时,主动学习和自学习的组合是有益的。
Aug, 2021
文章提出了一种名为WL-AC的新型算法模板,该模板可以利用低质量的弱标注器来减少查询复杂性,同时保持所需的准确度水平。通过绕过实现假设,WL-AC适用于许多现实世界的情况,包括随机损坏的弱标签和高维度家族的区别分类器。在经验上,我们提出了一种WL-AC的实现,可以在保持与被动学习相同的准确度的情况下,显著降低标签数量。
Nov, 2022
利用未标记的样本空间,我们提出了两种新的注释统一算法,旨在解决主动学习中存在的错误数据标注问题,并通过在四个公共数据集上的实验证明该方法在评估标注者可靠性和分配实际标签方面的鲁棒性和优越性,超过了现有算法和简单的多数投票。
Jul, 2023
我们研究了在主动学习过程中使用区域查询的复杂度与查询数量之间的权衡关系,并通过设计 VC 维度相关的查询方法来有效地学习。对于特定的假设类别,我们展示了更强的结果,包括计算效率和对未知数据集的适应性。
May, 2024