ImageNet 规模下的主动学习

Nov, 2021

Active Learning at the ImageNet Scale

Zeyad Ali Sami Emam, Hong-Min Chu, Ping-Yeh Chiang, Wojciech Czaja, Richard Leapman...

TL;DR该研究通过将主动学习与自监督预训练相结合，并使用称为Balanced Selection（BASE）的算法来解决类不平衡问题，提高图像分类性能，特别适用于工业级大规模数据标记和训练中。

Abstract

active learning (AL) algorithms aim to identify an optimal subset of data for annotation, such that deep neural networks (DNN) can achieve better performance when trained on this labeled subset. AL is especially

发现论文，激发创造

深度主动学习反思：在模型训练中利用未标记数据

该研究提出了在主动学习的过程中既利用有标签的数据，也利用无标签的数据进行模型训练的方法，并使用了无监督特征学习和半监督学习的技术，研究表明使用无标签数据进行模型训练在图像分类任务中可以带来比不同获取策略更高的准确度，因此可以得到更小的标签预算。

Nov, 2019

Ask-n-Learn：基于可靠梯度表示的主动学习图像分类

本论文提出了一种基于梯度嵌入和预测校准的主动学习方法Ask-n-Learn，结合数据扩增缓解伪标注期间的确认偏差，通过对基准图像分类任务（CIFAR-10，SVHN，Fashion-MNIST，MNIST）的经验研究，证明了该方法优于最近提出的BADGE算法等现有基线。

Sep, 2020

深度主动学习在图像分类任务中的有效评估

本文旨在探讨如何通过主动学习（AL）技术实现更高效的标签操作的问题，其中包括一些在目前文献中存在的问题，如数据增强方法和SGD等常见方法的应用等，通过在图像分类中新的开源AL工具DISTIL的统一重新实现，我们研究了这些问题，并提出了一些第一手的洞察，以供AL从业者在未来的工作中参考。

Jun, 2021

减少标注工作量：自监督活跃学习相遇

本研究针对减少标注工作的两种范式：主动学习和自学习，研究它们能否相互受益。在对象识别数据集（包括CIFAR10、CIFAR100和Tiny ImageNet）上的实验证明：对于低的标注预算，主动学习对自学习没有帮助。当标注预算很高时，主动学习和自学习的组合是有益的。

Aug, 2021

低预算主动学习的简单基线

本篇研究利用自我监督学习方法提取丰富特征，并研究了针对低标记预算下不同采样策略的有效性，表明虽然主流主动学习方法在高标记预算下表现出色，但简单的K均值聚类方法在低预算下可以胜任，并可作为图像分类低预算主动学习的基线方法。

Oct, 2021

利用自监督预设任务进行主动学习的PT4AL

本文提出一种创新的主动学习方法，利用自监督的预训练任务和独特的数据采样器，通过选择具有难度和代表性的数据来解决数据标注代价高的问题，并在各种图像分类和分割基准上取得了令人信服的性能。

Jan, 2022

特征混合的主动学习

提出了一种名为ALFA-Mix的新型批量主动学习方法，它利用分析未标记实例的预测结果中的不一致性来确定具有足够明显特征的实例，证明该方法在图像、视频和非视觉数据的12个基准测试中，在30种不同的设置中优于所有其它主动学习方法，特别是在低数据量情况和自训练视觉转换器方面，ALFA-Mix 的性能优于该领域现有技术的59％和43％。

Mar, 2022

如何通过主动学习在半监督图像分类中克服确认偏倚

活跃学习和半监督学习在有限标记数据的真实世界应用中结合的潜力为在真实世界应用中使用有限标记数据进行学习的鲁棒方法提供了新的方向。

Aug, 2023

DIRECT: 不平衡和标签噪音下的深度主动学习

通过一种新颖的算法 DIRECT，该论文提出了解决机器学习中不平衡问题的有效技术，通过收集更平衡和信息丰富的标记示例来进行注释，相较于现有算法，该算法节省了超过15%的注释预算。

Dec, 2023

零样本主动学习基于自监督学习

提出了一种新的无关模型且无需迭代过程的主动学习方法，利用自监督学习的特征表示来进行数据注释以提高深度学习模型的泛化性能。

Jan, 2024