AnchorAL:用于大规模和不平衡数据集的高效主动学习
该研究通过将主动学习与自监督预训练相结合,并使用称为 Balanced Selection(BASE)的算法来解决类不平衡问题,提高图像分类性能,特别适用于工业级大规模数据标记和训练中。
Nov, 2021
该论文提出了一种融合标注和模型训练的主动学习方法,结合半监督学习和基于一致性的样本选择度量,实现从未标注数据中选取最优数据来改善模型性能,在图像分类任务中实验结果显示出优异表现,同时探究了学习式主动学习方法的起点问题并提出了相关测量指标。
Oct, 2019
通过一种新颖的算法 DIRECT,该论文提出了解决机器学习中不平衡问题的有效技术,通过收集更平衡和信息丰富的标记示例来进行注释,相较于现有算法,该算法节省了超过 15% 的注释预算。
Dec, 2023
本文提出一种解决在打标签样本池中既包含目标类和非目标类的情况下如何查询样本的问题的方法 ——OpenAL,并在细粒度分类病理图像的实验中表明其可以显著提高目标类样本的查询质量,达到比当前最先进的主动学习方法更高的性能。
Jul, 2023
本文提出一种新的主动学习算法,将 CNN 模型的输出从 softmax 替换为 Dirichlet 值,实现从未标记数据中提取最具信息量的标记数据集,该方法在多项数据集和医学图像识别领域中与其他主动学习方法相比均具有更高的性能表现和易于实现且不需要大量计算资源的优点。
Jul, 2020
使用元学习框架,将主动学习算法视为学习问题,并使用强化学习训练一个输入基础学习器状态和未标记点集的深度神经网络,预测下一个最佳注释点,使用多任务数据集嵌入方法,使得算法可以直接推广到不同的问题。
Jun, 2018
本研究旨在证明在相同实验条件下,不同类型的主动学习算法(基于不确定性、多样性和委员会的),与随机采样基准相比,产生的收益不一致,这种性能度量的差异性可能导致结果与以前报告的结果不一致,强正则化下,主动学习方法在各种实验条件下显示出微小或无优势,并提出一套关于如何评估主动学习算法的建议,以确保结果在实验条件变化下具有重复性和稳健性。
Feb, 2020
本研究探讨主动学习策略在降低时序分类任务中所需标记数据数量方面的应用,通过提出一种新的类平衡实例选择算法,有效地解决了不平衡时序数据集中的分类性能和实例选择偏差问题,并在触觉纹理识别和工业故障检测领域证明了该方法的有效性。
May, 2024
提出了一种名为 ALFA-Mix 的新型批量主动学习方法,它利用分析未标记实例的预测结果中的不一致性来确定具有足够明显特征的实例,证明该方法在图像、视频和非视觉数据的 12 个基准测试中,在 30 种不同的设置中优于所有其它主动学习方法,特别是在低数据量情况和自训练视觉转换器方面,ALFA-Mix 的性能优于该领域现有技术的 59%和 43%。
Mar, 2022