集成主动学习的训练数据子集搜索

May, 2019

集成主动学习的训练数据子集搜索

Training Data Subset Search with Ensemble Active Learning

Kashyap Chitta, Jose M. Alvarez, Elmar Haussmann, Clement Farabet

TL;DR本文提出使用大规模集成主动学习方法来扩展数据子集搜索，通过在数百个模型中重复使用中间训练检查点来实现。实验结果表明，优化训练数据分布可以对大规模视觉任务带来显著的益处。

Abstract

deep neural networks (DNNs) often rely on very large datasets for training. Given the large size of such datasets, it is conceivable that they contain certain samples that either do not contribute or negatively impact the DNN's optimization. Modifying the training distribution in a way

deep neural networks active learning ensemble training data large scale vision tasks

发现论文，激发创造

ImageNet 规模下的主动学习

该研究通过将主动学习与自监督预训练相结合，并使用称为 Balanced Selection（BASE）的算法来解决类不平衡问题，提高图像分类性能，特别适用于工业级大规模数据标记和训练中。

Nov, 2021

少样本学习：计算机视觉统一数据子集选择与主动学习框架

本文介绍一种使用多样性模型的训练数据子集选择方法，该方法可提高计算机视觉任务的准确性并减少标注成本。

Jan, 2019

面向工程设计的数据高效代理建模：基于批量模式的深度主动学习回归，无需集成

提出了一种简单且可扩展的主动学习方法，以在学生 - 教师方式下训练替代模型，以取代使用贝叶斯框架对基于深度神经网络（DNN）的替代模型进行复杂的训练过程，从而利用深度学习的优秀能力来减少计算复杂度，在实践中验证了该方法具有可行性并可用于多个工程设计领域。

Nov, 2022

深度概率集成在大规模视觉主动学习中的应用

本论文介绍了一种基于 Deep Probabilistic Ensembles 的可扩展方法，该方法使用一个规则化的集合来近似 deep BNN。我们对大规模的视觉主动学习实验进行了一系列研究并在 CIFAR-10，CIFAR-100 和 ImageNet 数据集，以及 BDD100k 数据集上进行了语义分割的评估。我们的模型需要更少的训练数据才能实现竞争性能，并随着注释预算的增加而稳步提高。

Nov, 2018

DEAL: 图像分类的深度证据主动学习

本文提出一种新的主动学习算法，将 CNN 模型的输出从 softmax 替换为 Dirichlet 值，实现从未标记数据中提取最具信息量的标记数据集，该方法在多项数据集和医学图像识别领域中与其他主动学习方法相比均具有更高的性能表现和易于实现且不需要大量计算资源的优点。

Jul, 2020

可伸缩的物体检测主动学习

本研究描述了一个可扩展的主动学习系统，旨在改善在自动驾驶中监督学习的数据效率，主要围绕深度神经网络、有监督学习、主动学习、自动驾驶和数据效率展开，同时探讨了一些挑战及其解决方法，并简要描述了未来发展方向。

Apr, 2020

长尾深度主动学习

本文研究了基于池化的主动学习方法，提出了一种新的算法，使用神经网络在表征层上的激活空间中的最远优先遍历，从池中查询连续的点，相比于随机抽样和传统的不确定性抽样技术，对 MNIST、CIFAR-10 和 CIFAR-100 三个数据集的样本复杂度都有显著提高。

Nov, 2017

使用神经网络实现鲁棒性和可重现的主动学习

本研究旨在证明在相同实验条件下，不同类型的主动学习算法（基于不确定性、多样性和委员会的），与随机采样基准相比，产生的收益不一致，这种性能度量的差异性可能导致结果与以前报告的结果不一致，强正则化下，主动学习方法在各种实验条件下显示出微小或无优势，并提出一套关于如何评估主动学习算法的建议，以确保结果在实验条件变化下具有重复性和稳健性。

Feb, 2020

多样化小批量主动学习

该研究致力于解决减少有标签的训练数据来训练监督式分类模型的问题，通过使用 Active Learning 和 K-means 聚类算法，采用 mini-batch Active Learning 方法来快速有效地选取对模型具有信息量和多样性的训练样例，以达到相当或更好的性能表现。

Jan, 2019

模型合成中的多样性诱导信息瓶颈

本文提出了基于多样性损失函数的神经网络集成方法，以适应多模态数据的建模，并证明了其在数据分布变化和识别未知数据方面的显著性能提升。

Mar, 2020