NTKCPL：基于自监督模型的主动学习：通过估计真实覆盖面积

Jun, 2023

NTKCPL：基于自监督模型的主动学习：通过估计真实覆盖面积

NTKCPL: Active Learning on Top of Self-Supervised Model by Estimating True Coverage

Ziting Wen, Oscar Pizarro, Stefan Williams

TL;DR本文提出新的主动学习策略，即神经切向核聚类 - 伪标签算法，可有效解决已有算法对数据集量化反馈误差大等问题。

Abstract

High annotation cost for training machine learning classifiers has driven extensive research in active learning and self-supervised learning

active learning self-supervised learning supervised learning neural tangent kernel clustering pseudo-labels

发现论文，激发创造

具备性能保证的神经主动学习

研究了非参数制度下流式学习中的主动学习问题，使用最近提出的神经切向核近似工具构建适当的神经嵌入来确定算法操作的特征空间和计算在其上的学习模型。提出了一种对先前知识不可知的版本算法，并通过遗憾平衡方案解决了所得到的在线模型选择问题，该算法具有计算效率，提供了关于累积遗憾和请求标签数量的联合保证，这些保证取决于手头标记函数的复杂度。在线性情况下，这些保证恢复了关于标记复杂度的泛化误差的已知的极小值结果。

Jun, 2021

Ask-n-Learn：基于可靠梯度表示的主动学习图像分类

本论文提出了一种基于梯度嵌入和预测校准的主动学习方法 Ask-n-Learn，结合数据扩增缓解伪标注期间的确认偏差，通过对基准图像分类任务（CIFAR-10，SVHN，Fashion-MNIST，MNIST）的经验研究，证明了该方法优于最近提出的 BADGE 算法等现有基线。

Sep, 2020

主动学习的边际效益：自我监督是否自欺欺人？

本研究提供了一个将自我监督预训练、主动学习和一致性正则化自我训练整合的新算法框架，并在 CIFAR10 和 CIFAR100 数据集上进行了实验，揭示了自我监督预训练在半监督学习中的重要性，被 S4L 技术所替代的主动学习的价值。

Nov, 2020

减少标注工作量：自监督活跃学习相遇

本研究针对减少标注工作的两种范式：主动学习和自学习，研究它们能否相互受益。在对象识别数据集（包括 CIFAR10、CIFAR100 和 Tiny ImageNet）上的实验证明：对于低的标注预算，主动学习对自学习没有帮助。当标注预算很高时，主动学习和自学习的组合是有益的。

Aug, 2021

使用部分标注和自训练的结构预测数据高效主动学习

本文提出了一种基于主动学习的实用方法，利用部分注释来减少结构标签空间的注释成本，并采用自我训练来将当前模型的自动预测作为未注释子结构的伪标签，通过使用错误估计器自适应地确定部分选择比率来解决选择子结构进行注释的挑战，本文在四个结构预测任务中展示了我们部分注释和自我训练组合的效果。该方法通过公平的比较方案，考虑读取时间，降低了注释成本。

May, 2023

基于预设文本的主动学习

该研究提出了一种针对深度神经网络的主动学习技术，使用一个单独的网络对样本进行评分选择，提高模型对错标记的容忍度，同时通过自监督和多任务学习等方法缓解数据不足的问题。

Oct, 2020

基于不一致性的数据中心主动开放集注释

基于 NEAT 方法的主动学习能够有效地注释开放集数据，从而优于现有的主动学习方法，解决了现实情况下存在未知类别的标注问题。

Jan, 2024

基于分类树的主动学习：一种封装方法

使用包装器主动学习方法对分类问题进行改进，通过在初始标记样本上构建分类树，将空间分解为低熵区域，再使用基于输入空间的准则从这些区域中进行子采样，并证明了该方法在使用受限标记数据集时构建准确分类模型的有效性。

Apr, 2024

基于层次点云的半监督点云语义分割的主动学习

通过开发一种分层点云主动学习策略，本文解决了使用有限注释学习 3D 点云分割的问题，通过使用上下文信息的分层最小边距不确定性模块对每个点进行不确定性度量，并设计了特征距离抑制策略来选择重要和代表性的点进行手动标注，在 S3DIS 和 ScanNetV2 数据集上的广泛实验表明，所提出的框架在仅使用 0.07% 和 0.1% 的训练数据时分别达到了完全监督基线的 96.5% 和 100% 的性能，优于最先进的弱监督和主动学习方法。

Aug, 2023

基于预训练语言模型的样本高效主动学习自训练

使用半监督的方法（self-training）从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率，通过进行广泛的实验，提出了一种新的有效的 self-training 策略（HAST），并在四个文本分类基准数据集上进行了评估，仅使用 25% 的数据，超过了之前实验的分类结果，达到了与三个数据集的先前实验相当的分类效果。

Jun, 2024