TL;DR研究 DAL 的不同方法,提出 DeepAL+ 工具包,并通过分类实验评估 DAL 方法的性能效果,提供更好的数据标注方法以提高模型性能。
Abstract
While deep learning (DL) is data-hungry and usually relies on extensive
labeled data to deliver good performance, Active Learning (AL) reduces labeling
costs by selecting a small proportion of samples from unlabeled data for
labeling and training. Therefore, deep active learning (DAL)
深度学习主导的主动学习方法的调查;介绍了 DAL 任务,总结了最重要的基准和常用的数据集;系统地提供了 DAL 方法的分类,包括注释类型、查询策略、深度模型架构、学习范式和训练过程,并客观分析它们的优点和缺点;全面总结了 DAL 在自然语言处理、计算机视觉和数据挖掘等领域的主要应用;在对当前研究进行详细分析后,讨论了挑战和展望。
本研究对 19 种不同的 DAL 方法在统一设置下进行评估,发现大多数 SAL 方法不能比随机选择获得更高的准确度,相较于纯 SAL 方法,半监督训练带来显著的性能提升,尤其是在数据丰富的情况下进行数据选择可以实现显著和一致的性能提升,建议从实践角度早期应用 SSAL,并尽可能收集更多的未标记数据以获得更好的模型性能。
本文旨在探讨如何通过主动学习(AL)技术实现更高效的标签操作的问题,其中包括一些在目前文献中存在的问题,如数据增强方法和 SGD 等常见方法的应用等,通过在图像分类中新的开源 AL 工具 DISTIL 的统一重新实现,我们研究了这些问题,并提出了一些第一手的洞察,以供 AL 从业者在未来的工作中参考。