主动学习帮助预训练模型学习预期任务
本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法,以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。
Dec, 2020
该论文研究了主动学习中困难的预测模型选择问题,并提出一种基于模型探针(model probes)的方法 Biased-Robin Algorithm,能够在相同成本和先验概率下有效地选择模型。
Jul, 2012
基于现有观察,我们提出了一个名为 PCB 的新型主动学习框架,对预训练视觉语言模型(VLMs)进行自适应,以解决标签获取成本高的问题,并在七个真实数据集上实验证明,在性能上超越了传统的主动学习和随机取样方法。
Nov, 2023
使用半监督的方法(self-training)从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率,通过进行广泛的实验,提出了一种新的有效的 self-training 策略(HAST),并在四个文本分类基准数据集上进行了评估,仅使用 25% 的数据,超过了之前实验的分类结果,达到了与三个数据集的先前实验相当的分类效果。
Jun, 2024
该研究提出了在主动学习的过程中既利用有标签的数据,也利用无标签的数据进行模型训练的方法,并使用了无监督特征学习和半监督学习的技术,研究表明使用无标签数据进行模型训练在图像分类任务中可以带来比不同获取策略更高的准确度,因此可以得到更小的标签预算。
Nov, 2019
本文研究了主题 “主动学习”,发现尽管在特定模型和特定领域中使用主动学习可能会带来好处,但在不同模型和任务之间泛化当前方法的好处不可靠,并且主动学习的认购数据与指导其获取的模型相结合,与使用独立同分布的(I.I.D)随机样本训练继任模型的方法相比并没有明显的优势,主动学习的局限性是否值得现实中的应用,值得深思。
Jul, 2018
本研究结合活性学习和增量学习的方法,提出一种基于不确定度的适用于大多数对象检测器的主动学习度量标准,并探讨在样本选择过程中如何解决类别不平衡问题,通过系统评估在 PASCAL VOC 2012 数据集上,实现对新未标注数据集的持续探索。
Sep, 2018
本研究针对减少标注工作的两种范式:主动学习和自学习,研究它们能否相互受益。在对象识别数据集(包括 CIFAR10、CIFAR100 和 Tiny ImageNet)上的实验证明:对于低的标注预算,主动学习对自学习没有帮助。当标注预算很高时,主动学习和自学习的组合是有益的。
Aug, 2021