主动学习：问题设置和最新发展

Dec, 2020

Active Learning: Problem Settings and Recent Developments

Hideitsu Hino

TL;DR本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法，以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。

Abstract

In supervised learning, acquiring labeled training data for a predictive model can be very costly, but acquiring a large amount of unlabeled data is often quite easy. active learning is a method of obtaining pred

supervised learning active learning learning acquisition functions sequential data acquisition material development

发现论文，激发创造

正类和未标注数据中的主动学习

提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法，该方法通过分别估计正样本和未标记点的概率密度，计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比，实验和经验分析结果表现出有前途的结果。

Feb, 2016

深度主动学习反思：在模型训练中利用未标记数据

该研究提出了在主动学习的过程中既利用有标签的数据，也利用无标签的数据进行模型训练的方法，并使用了无监督特征学习和半监督学习的技术，研究表明使用无标签数据进行模型训练在图像分类任务中可以带来比不同获取策略更高的准确度，因此可以得到更小的标签预算。

Nov, 2019

可伸缩的物体检测主动学习

本研究描述了一个可扩展的主动学习系统，旨在改善在自动驾驶中监督学习的数据效率，主要围绕深度神经网络、有监督学习、主动学习、自动驾驶和数据效率展开，同时探讨了一些挑战及其解决方法，并简要描述了未来发展方向。

Apr, 2020

部署主动学习的实际障碍

本文研究了主题 “主动学习”，发现尽管在特定模型和特定领域中使用主动学习可能会带来好处，但在不同模型和任务之间泛化当前方法的好处不可靠，并且主动学习的认购数据与指导其获取的模型相结合，与使用独立同分布的（I.I.D）随机样本训练继任模型的方法相比并没有明显的优势，主动学习的局限性是否值得现实中的应用，值得深思。

Jul, 2018

来自 Web 的主动学习

本文提出了一种使用网络上未标注的数据作为用于 Pool-based active learning 的数据池的方法，并使用 Seafaring 算法检索信息，证明此方法比使用少量未标注池的现有方法表现更好。

Oct, 2022

主动模型选择

该论文研究了主动学习中困难的预测模型选择问题，并提出一种基于模型探针（model probes）的方法 Biased-Robin Algorithm，能够在相同成本和先验概率下有效地选择模型。

Jul, 2012

小数据的模型选择实用主动学习

本研究开发了一种基于支持向量分类的基础池式主动学习器的快速简单的实践方法，旨在解决很少标记数据点的情况下进行模型选择的挑战，并通过加权方法让模型在易于分类数据集和难以分类数据集之间取得平衡的最佳性能。

Dec, 2021

深度主动学习破除幻觉

该研究旨在评估目前基于最新学习方法下的图像分类的主动学习策略的有效性，并且在更实际的情况下验证了选择语义分割的方法，其提出了一种更合适的评估协议。

Dec, 2019

基于预训练语言模型的样本高效主动学习自训练

使用半监督的方法（self-training）从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率，通过进行广泛的实验，提出了一种新的有效的 self-training 策略（HAST），并在四个文本分类基准数据集上进行了评估，仅使用 25% 的数据，超过了之前实验的分类结果，达到了与三个数据集的先前实验相当的分类效果。

Jun, 2024

提高嘈杂数据集上主动学习的成本效益

主要介绍了主动学习策略在解决二分类问题中的应用，提出了一种基于偏移正态分布采样函数的方法，通过限制噪声和正类标签选择，提高了 20% 到 32% 的成本效率。

Mar, 2024