查询策略基准测试:走向未来的深度主动学习
深度学习主导的主动学习方法的调查;介绍了 DAL 任务,总结了最重要的基准和常用的数据集;系统地提供了 DAL 方法的分类,包括注释类型、查询策略、深度模型架构、学习范式和训练过程,并客观分析它们的优点和缺点;全面总结了 DAL 在自然语言处理、计算机视觉和数据挖掘等领域的主要应用;在对当前研究进行详细分析后,讨论了挑战和展望。
May, 2024
提出了 ActiveGLAE benchmark 作为评估 DAL 的综合数据集合和评估指南,并介绍了当前使用 Transformer-based 语言模型的 DAL 实践中存在的三个关键挑战 —— 数据集选择,模型培训和 DAL 设置,并在大量实验中建立了基线结果,以作为评估未来工作的参考点和为研究人员和实践者提供指南。
Jun, 2023
提出了一种在科学计算领域中应用的深度主动学习方法,对六个基准问题进行了评估,发现现代池化型主动学习方法都存在一个敏感的超参数,被称为池比例,该方法克服了这一限制,提供了更稳健的性能。
Jan, 2022
提出一种新的批次模式主动学习算法 —— 判别式主动学习法(DAL),并将其应用在神经网络和大批次查询的情境中,尝试通过将标记集合和未标记的数据池区分开来作为选择样本的依据来执行主动学习,结果表明我们的方法在中等和大批次查询中与最先进的方法相当,并且在实现简单的同时还可以扩展到除分类任务之外的其他领域,同时,我们的实验还表明在相对较大的批次中,当批量大小较大时,当前现有的最先进方法均不比不确定性采样明显更好,从而推翻了一些最近文献中报道的结果。
Jul, 2019
本研究对 19 种不同的 DAL 方法在统一设置下进行评估,发现大多数 SAL 方法不能比随机选择获得更高的准确度,相较于纯 SAL 方法,半监督训练带来显著的性能提升,尤其是在数据丰富的情况下进行数据选择可以实现显著和一致的性能提升,建议从实践角度早期应用 SSAL,并尽可能收集更多的未标记数据以获得更好的模型性能。
Nov, 2022
本文介绍了一种基于深度学习和主动学习技术的医学图像分析方法,使用 ORB 特征描述符对无标注的样本进行抽样,并通过对 3 个医学图像数据集的验证证明该方法的有效性和高效性。
Sep, 2018
使用可复现的主动学习评估框架来比较评估自然语言处理中的主动学习策略,并通过定义和跟踪实验参数,帮助实践者作出更明智的决策,同时帮助研究者开发出新的高效主动学习策略和制定最佳实践,从而降低注释成本。
Aug, 2023