主动学习帮助预训练模型学习预期任务

Apr, 2022

主动学习帮助预训练模型学习预期任务

Active Learning Helps Pretrained Models Learn the Intended Task

Alex Tamkin, Dat Nguyen, Salil Deshpande, Jesse Mu, Noah Goodman

TL;DR本文探讨使用预训练模型进行主动学习任务中的歧义消除，发现预训练模型使用基于不确定性的主动学习时所需标注数量降低至非预训练模型的五分之一，并且可以通过在预训练的表示空间中选择具有消除歧义的特征属性的数据样本来获得这种性能提升。

Abstract

Models can fail in unpredictable ways during deployment due to task ambiguity, when multiple behaviors are consistent with the provided training data. An example is an object classifier trained on red squares and blue circles: when encountering blue squares, the intended behavior is undefined. We investigate whether →

pretrained models active learning disambiguation uncertainty-based linearly separable

发现论文，激发创造

自监督语言建模的冷启动主动学习

使用 BERT 预训练模型，通过最小化蒙版语言模型损失，实现在减少样本采样迭代和计算时间的同时，更高效地减少文本分类标注成本。

Oct, 2020

主动学习：问题设置和最新发展

本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法，以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。

Dec, 2020

深度主动学习破除幻觉

该研究旨在评估目前基于最新学习方法下的图像分类的主动学习策略的有效性，并且在更实际的情况下验证了选择语义分割的方法，其提出了一种更合适的评估协议。

Dec, 2019

主动模型选择

该论文研究了主动学习中困难的预测模型选择问题，并提出一种基于模型探针（model probes）的方法 Biased-Robin Algorithm，能够在相同成本和先验概率下有效地选择模型。

Jul, 2012

视觉语言模型中的主动提示学习

基于现有观察，我们提出了一个名为 PCB 的新型主动学习框架，对预训练视觉语言模型（VLMs）进行自适应，以解决标签获取成本高的问题，并在七个真实数据集上实验证明，在性能上超越了传统的主动学习和随机取样方法。

Nov, 2023

基于预训练语言模型的样本高效主动学习自训练

使用半监督的方法（self-training）从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率，通过进行广泛的实验，提出了一种新的有效的 self-training 策略（HAST），并在四个文本分类基准数据集上进行了评估，仅使用 25% 的数据，超过了之前实验的分类结果，达到了与三个数据集的先前实验相当的分类效果。

Jun, 2024

深度主动学习反思：在模型训练中利用未标记数据

该研究提出了在主动学习的过程中既利用有标签的数据，也利用无标签的数据进行模型训练的方法，并使用了无监督特征学习和半监督学习的技术，研究表明使用无标签数据进行模型训练在图像分类任务中可以带来比不同获取策略更高的准确度，因此可以得到更小的标签预算。

Nov, 2019

部署主动学习的实际障碍

本文研究了主题 “主动学习”，发现尽管在特定模型和特定领域中使用主动学习可能会带来好处，但在不同模型和任务之间泛化当前方法的好处不可靠，并且主动学习的认购数据与指导其获取的模型相结合，与使用独立同分布的（I.I.D）随机样本训练继任模型的方法相比并没有明显的优势，主动学习的局限性是否值得现实中的应用，值得深思。

Jul, 2018

深度目标检测主动学习

本研究结合活性学习和增量学习的方法，提出一种基于不确定度的适用于大多数对象检测器的主动学习度量标准，并探讨在样本选择过程中如何解决类别不平衡问题，通过系统评估在 PASCAL VOC 2012 数据集上，实现对新未标注数据集的持续探索。

Sep, 2018

减少标注工作量：自监督活跃学习相遇

本研究针对减少标注工作的两种范式：主动学习和自学习，研究它们能否相互受益。在对象识别数据集（包括 CIFAR10、CIFAR100 和 Tiny ImageNet）上的实验证明：对于低的标注预算，主动学习对自学习没有帮助。当标注预算很高时，主动学习和自学习的组合是有益的。

Aug, 2021