多样化小批量主动学习

Jan, 2019

Diverse mini-batch Active Learning

Fedor Zhdanov

TL;DR该研究致力于解决减少有标签的训练数据来训练监督式分类模型的问题，通过使用 Active Learning 和 K-means 聚类算法，采用 mini-batch Active Learning 方法来快速有效地选取对模型具有信息量和多样性的训练样例，以达到相当或更好的性能表现。

Abstract

We study the problem of reducing the amount of labeled training data required to train supervised classification models. We approach it by leveraging Active Learning, through sequential selection of examples which benefit the model most. Selecting examples one by one is not practical for the amount of training examples required by the modern →

reducing labeled training data active learning deep learning mini-batch active learning k-means clustering

发现论文，激发创造

大规模批量主动学习

研究了一种高效的批量主动学习算法，该算法结合不确定性和多样性概念，在批量设置中易于扩展，并与先前研究中使用的批量大小（100K-1M）相比提高模型训练效率。同时，还证明了相关采样方法的标签复杂度保证，该方法在特定情况下几乎等同于我们的采样方法。

Jul, 2021

区分性主动学习

提出一种新的批次模式主动学习算法 —— 判别式主动学习法（DAL），并将其应用在神经网络和大批次查询的情境中，尝试通过将标记集合和未标记的数据池区分开来作为选择样本的依据来执行主动学习，结果表明我们的方法在中等和大批次查询中与最先进的方法相当，并且在实现简单的同时还可以扩展到除分类任务之外的其他领域，同时，我们的实验还表明在相对较大的批次中，当批量大小较大时，当前现有的最先进方法均不比不确定性采样明显更好，从而推翻了一些最近文献中报道的结果。

Jul, 2019

小数据的模型选择实用主动学习

本研究开发了一种基于支持向量分类的基础池式主动学习器的快速简单的实践方法，旨在解决很少标记数据点的情况下进行模型选择的挑战，并通过加权方法让模型在易于分类数据集和难以分类数据集之间取得平衡的最佳性能。

Dec, 2021

主动学习：问题设置和最新发展

本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法，以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。

Dec, 2020

贝叶斯批次主动学习作为稀疏子集逼近

本研究提出一种基于贝叶斯批量主动学习方法来解决大规模监督模型中标签获取成本高的问题，从而利用大量未标记数据来改善模型性能。此方法通过逼近模型参数的完整数据后验概率，并使用随机投影技术来推广到任意模型，从而使批处理的数据选择更加多样，有效降低了计算复杂度，并在多个大规模回归和分类任务上得到了证实。

Aug, 2019

极小 - 极大主动学习

该研究发展了一种基于半监督极小极大熵的主动学习算法，通过同时利用不确定性和多样性来选择最具代表性的样本，从而在图像分类和语义分割任务中表现优于现有的技术。

Dec, 2020

基于聚类的主动学习与多样性探索缓解标注数据不足问题

该论文提出了一种新的基于聚类的主动学习框架 (ALCS)，其中使用密度聚类方法探索数据的聚类结构，并引入基于双簇边界的样本查询程序以提高高度重叠类别分类的学习性能，此外，我们开发了有效的多样性探索策略来解决样本查询中的冗余问题，实验证明了该方法的有效性。

Jul, 2022

异方差分布上的神经主动学习

本研究展示了在异方差分布上运行的主流主动学习技术的灾难性失败，并提出了一种基于微调的方法以缓解这些失败，同时结合模型差别评分函数提出了一个新的算法，在清除噪声示例的同时最大化准确性，表现优异于现有的主动学习技术。

Nov, 2022

少样本学习：计算机视觉统一数据子集选择与主动学习框架

本文介绍一种使用多样性模型的训练数据子集选择方法，该方法可提高计算机视觉任务的准确性并减少标注成本。

Jan, 2019

主动自适应的序列学习

提出了一种主动和自适应地解决一系列机器学习问题的框架，该框架通过使用一些未标记数据池中的最具信息量的样本，利用先前步骤中获得的信息，使用基于随机梯度下降的主动学习算法来实现近乎最优的风险性能，并构建了一个学习问题变化的估计器，通过使用主动学习样本提供一种自适应的样本大小选择规则，以保证足够的时间步数时超额风险是有界的。

May, 2018