使用无标记数据与标记数据停止文本分类上的主动学习

Jan, 2019

使用无标记数据与标记数据停止文本分类上的主动学习

The Use of Unlabeled Data versus Labeled Data for Stopping Active Learning for Text Classification

Garrett Beatty, Ethan Kochis, Michael Bloodgood

TL;DR本文探讨了三种不同的数据源在确定何时终止有标注数据的主动学习过程中的优缺点，研究发现使用未标注数据的停止方法比使用已标注数据的方法更有效。

Abstract

Annotation of training data is the major bottleneck in the creation of text classification systems. active learning is a commonly used technique to reduce the amount of →

active learning text classification systems training data labeled data unlabeled data

发现论文，激发创造

深度主动学习反思：在模型训练中利用未标记数据

该研究提出了在主动学习的过程中既利用有标签的数据，也利用无标签的数据进行模型训练的方法，并使用了无监督特征学习和半监督学习的技术，研究表明使用无标签数据进行模型训练在图像分类任务中可以带来比不同获取策略更高的准确度，因此可以得到更小的标签预算。

Nov, 2019

击中目标：以代价为基础的最优主动学习停止

本文介绍利用主动学习通过提供可行建议，确定适合特定现实情景的停止标准以减少标注成本的方法。作者提出了大规模的停止标准比较，使用成本测量来量化准确性 / 标签交换，并提供了所有停止标准的公共实现和一个开源框架。

Oct, 2021

停用集对文本分类中主动学习停止的影响

本研究探究了不同的停止集选择对不同停止方法的影响，结果表明，停止算法的性能取决于停止集的选择，其中，基于稳定预测的停止方法的性能要强于基于置信度的停止方法，并且原始作者提出的无偏代表性停止集比最近发布的工作中使用的系统偏倚停止集表现更好，这些发现有助于阐明停止方法的这一重要方面的影响，这一方面在最近的发布工作中被忽视了，但对于重要的语义计算应用，如技术辅助审查和文本分类等，它对性能的影响可能很大。

Jan, 2022

基于预训练语言模型的样本高效主动学习自训练

使用半监督的方法（self-training）从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率，通过进行广泛的实验，提出了一种新的有效的 self-training 策略（HAST），并在四个文本分类基准数据集上进行了评估，仅使用 25% 的数据，超过了之前实验的分类结果，达到了与三个数据集的先前实验相当的分类效果。

Jun, 2024

正类和未标注数据中的主动学习

提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法，该方法通过分别估计正样本和未标记点的概率密度，计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比，实验和经验分析结果表现出有前途的结果。

Feb, 2016

主动学习：问题设置和最新发展

本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法，以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。

Dec, 2020

在贝叶斯主动学习中更好地利用无标签数据

全监督模型在贝叶斯主动学习中占主导地位，我们认为它们对未标记数据中的信息的忽视不仅损害了预测性能，也影响了关于获取哪些数据的决策。我们提出了一个简单的半监督贝叶斯主动学习框架，发现它比传统的贝叶斯主动学习或随机获取数据的半监督学习能够生成更好的模型。该框架也更易于扩展。除了支持向半监督模型的转变外，我们的发现还强调了研究模型和获取方法的重要性。

Apr, 2024

通过主动学习提高文本分类中的概率模型

提出了一种将概率模型和主动学习结合起来的新算法，用于降低自动化文本分类的标注成本，实现对未标注数据和难分类文档的集中标注，性能可与最先进的方法相媲美，使用原有标注数据比最近发布的两篇研究中仅用一小部分标注数据得出的结论相同，并提供了 activeText 软件。

Feb, 2022

零样本主动学习基于自监督学习

提出了一种新的无关模型且无需迭代过程的主动学习方法，利用自监督学习的特征表示来进行数据注释以提高深度学习模型的泛化性能。

Jan, 2024

评估实时主动学习绩效的限制

本文研究了如何在不可靠的情况下评估主动学习算法在训练期间的性能，并提出了三个主要挑战：如何推导性能分布，如何保留标记子集的代表性，以及如何纠正由于智能选择策略而引起的抽样偏差。

Jan, 2019