来自 Web 的主动学习

WWWOct, 2022

Active Learning from the Web

Ryoma Sato

TL;DR本文提出了一种使用网络上未标注的数据作为用于 Pool-based active learning 的数据池的方法，并使用 Seafaring 算法检索信息，证明此方法比使用少量未标注池的现有方法表现更好。

Abstract

Labeling data is one of the most costly processes in machine learning pipelines. active learning is a standard approach to alleviating this problem. Pool-based active learning first builds a pool of →

active learning pool-based method unlabelled data web seafaring

发现论文，激发创造

主动学习：问题设置和最新发展

本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法，以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。

Dec, 2020

深度主动学习反思：在模型训练中利用未标记数据

该研究提出了在主动学习的过程中既利用有标签的数据，也利用无标签的数据进行模型训练的方法，并使用了无监督特征学习和半监督学习的技术，研究表明使用无标签数据进行模型训练在图像分类任务中可以带来比不同获取策略更高的准确度，因此可以得到更小的标签预算。

Nov, 2019

正类和未标注数据中的主动学习

提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法，该方法通过分别估计正样本和未标记点的概率密度，计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比，实验和经验分析结果表现出有前途的结果。

Feb, 2016

具备对现实数据池进行对比学习的深度主动学习

本研究提出了一种新的主动学习方法，通过对比学习在特征空间中选择集群的样本，从标记和未标记的数据池中获取信息，以获取优先的显着内部分布样本，并证明该方法相对于现有的主动学习方法需要更少的标注预算才能达到相同的准确性水平。

Mar, 2023

计算高效的主动学习

通过简单而有效的方法不仅可以降低主动学习过程的计算成本，还能保持模型性能，从而优化大规模数据集的标注效率。

Jan, 2024

基于预设文本的主动学习

该研究提出了一种针对深度神经网络的主动学习技术，使用一个单独的网络对样本进行评分选择，提高模型对错标记的容忍度，同时通过自监督和多任务学习等方法缓解数据不足的问题。

Oct, 2020

可伸缩的物体检测主动学习

本研究描述了一个可扩展的主动学习系统，旨在改善在自动驾驶中监督学习的数据效率，主要围绕深度神经网络、有监督学习、主动学习、自动驾驶和数据效率展开，同时探讨了一些挑战及其解决方法，并简要描述了未来发展方向。

Apr, 2020

众包数据库的主动学习

本研究提出一种将机器学习与众包数据库结合的主动学习算法，以实现众包应用程序的可扩展性，并通过实验证明：相比于以往的主动学习方案，我们的方法平均只需要人类标记 1-2 个数量级的数据集就能实现与随机采样相同的精度。

Sep, 2012

零样本主动学习基于自监督学习

提出了一种新的无关模型且无需迭代过程的主动学习方法，利用自监督学习的特征表示来进行数据注释以提高深度学习模型的泛化性能。

Jan, 2024

基于一致性的半监督主动学习：朝着最小化标注成本

该论文提出了一种融合标注和模型训练的主动学习方法，结合半监督学习和基于一致性的样本选择度量，实现从未标注数据中选取最优数据来改善模型性能，在图像分类任务中实验结果显示出优异表现，同时探究了学习式主动学习方法的起点问题并提出了相关测量指标。

Oct, 2019