查询策略基准测试：走向未来的深度主动学习

Dec, 2023

查询策略基准测试：走向未来的深度主动学习

Benchmarking of Query Strategies: Towards Future Deep Active Learning

Shiryu Ueno, Yusei Yamada, Shunsuke Nakatsuka, Kunihito Kato

TL;DR本研究对深度主动学习（DAL）的查询策略进行了基准测试，以减少注释成本。通过开发标准化的实验设置，研究了各种查询策略在六个数据集上的有效性，并使用完全训练的模型进行验证实验，探究了这些方法对这六个数据集的有效性。

Abstract

In this study, we benchmark query strategies for deep actice learning~(DAL). DAL reduces annotation costs by annotating only high-quality samples selected by →

query strategies deep active learning annotation costs standardized experimental settings model-based approaches

发现论文，激发创造

深度主动学习的比较调查

研究 DAL 的不同方法，提出 DeepAL+ 工具包，并通过分类实验评估 DAL 方法的性能效果，提供更好的数据标注方法以提高模型性能。

Mar, 2022

深度主动学习综述：近期进展与新前沿

深度学习主导的主动学习方法的调查；介绍了 DAL 任务，总结了最重要的基准和常用的数据集；系统地提供了 DAL 方法的分类，包括注释类型、查询策略、深度模型架构、学习范式和训练过程，并客观分析它们的优点和缺点；全面总结了 DAL 在自然语言处理、计算机视觉和数据挖掘等领域的主要应用；在对当前研究进行详细分析后，讨论了挑战和展望。

May, 2024

使用 Transformers 进行深度主动学习的基准测试 ActiveGLAE

提出了 ActiveGLAE benchmark 作为评估 DAL 的综合数据集合和评估指南，并介绍了当前使用 Transformer-based 语言模型的 DAL 实践中存在的三个关键挑战 —— 数据集选择，模型培训和 DAL 设置，并在大量实验中建立了基线结果，以作为评估未来工作的参考点和为研究人员和实践者提供指南。

Jun, 2023

面向科学计算的深度主动学习的鲁棒性

提出了一种在科学计算领域中应用的深度主动学习方法，对六个基准问题进行了评估，发现现代池化型主动学习方法都存在一个敏感的超参数，被称为池比例，该方法克服了这一限制，提供了更稳健的性能。

Jan, 2022

野外科学计算的深度主动学习

本文首次探究使用十个最先进的深度主动学习方法并解决八个基准问题的科学计算问题的鲁棒性，并建议对于科学计算问题，多样性是鲁棒的深度主动学习的必要条件。

Jan, 2023

区分性主动学习

提出一种新的批次模式主动学习算法 —— 判别式主动学习法（DAL），并将其应用在神经网络和大批次查询的情境中，尝试通过将标记集合和未标记的数据池区分开来作为选择样本的依据来执行主动学习，结果表明我们的方法在中等和大批次查询中与最先进的方法相当，并且在实现简单的同时还可以扩展到除分类任务之外的其他领域，同时，我们的实验还表明在相对较大的批次中，当批量大小较大时，当前现有的最先进方法均不比不确定性采样明显更好，从而推翻了一些最近文献中报道的结果。

Jul, 2019

深度主动学习综述

这篇文章探讨了深度主动学习的现状和未来发展方向，介绍了目前现有的挖掘数据特征的多种方法，并且对 “深度主动学习” 进行了定义和系统梳理。

Aug, 2020

深度主动学习在图像分类中的有效性实证研究

本研究对 19 种不同的 DAL 方法在统一设置下进行评估，发现大多数 SAL 方法不能比随机选择获得更高的准确度，相较于纯 SAL 方法，半监督训练带来显著的性能提升，尤其是在数据丰富的情况下进行数据选择可以实现显著和一致的性能提升，建议从实践角度早期应用 SSAL，并尽可能收集更多的未标记数据以获得更好的模型性能。

Nov, 2022

MedAL：面向医学图像分析的深度主动学习采样方法

本文介绍了一种基于深度学习和主动学习技术的医学图像分析方法，使用 ORB 特征描述符对无标注的样本进行抽样，并通过对 3 个医学图像数据集的验证证明该方法的有效性和高效性。

Sep, 2018

ALE：面向自然语言处理的基于仿真的主动学习评估框架用于参数驱动的查询策略比较

使用可复现的主动学习评估框架来比较评估自然语言处理中的主动学习策略，并通过定义和跟踪实验参数，帮助实践者作出更明智的决策，同时帮助研究者开发出新的高效主动学习策略和制定最佳实践，从而降低注释成本。

Aug, 2023