使用无标记数据与标记数据停止文本分类上的主动学习
该研究提出了在主动学习的过程中既利用有标签的数据,也利用无标签的数据进行模型训练的方法,并使用了无监督特征学习和半监督学习的技术,研究表明使用无标签数据进行模型训练在图像分类任务中可以带来比不同获取策略更高的准确度,因此可以得到更小的标签预算。
Nov, 2019
本文介绍利用主动学习通过提供可行建议,确定适合特定现实情景的停止标准以减少标注成本的方法。作者提出了大规模的停止标准比较,使用成本测量来量化准确性 / 标签交换,并提供了所有停止标准的公共实现和一个开源框架。
Oct, 2021
本研究探究了不同的停止集选择对不同停止方法的影响,结果表明,停止算法的性能取决于停止集的选择,其中,基于稳定预测的停止方法的性能要强于基于置信度的停止方法,并且原始作者提出的无偏代表性停止集比最近发布的工作中使用的系统偏倚停止集表现更好,这些发现有助于阐明停止方法的这一重要方面的影响,这一方面在最近的发布工作中被忽视了,但对于重要的语义计算应用,如技术辅助审查和文本分类等,它对性能的影响可能很大。
Jan, 2022
使用半监督的方法(self-training)从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率,通过进行广泛的实验,提出了一种新的有效的 self-training 策略(HAST),并在四个文本分类基准数据集上进行了评估,仅使用 25% 的数据,超过了之前实验的分类结果,达到了与三个数据集的先前实验相当的分类效果。
Jun, 2024
提出了一种能够在只有单类样本和无标签数据的情况下运作的主动学习算法,该方法通过分别估计正样本和未标记点的概率密度,计算信息性的期望值以获取更好的信息性度量。与其他类似方法相比,实验和经验分析结果表现出有前途的结果。
Feb, 2016
本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法,以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。
Dec, 2020
全监督模型在贝叶斯主动学习中占主导地位,我们认为它们对未标记数据中的信息的忽视不仅损害了预测性能,也影响了关于获取哪些数据的决策。我们提出了一个简单的半监督贝叶斯主动学习框架,发现它比传统的贝叶斯主动学习或随机获取数据的半监督学习能够生成更好的模型。该框架也更易于扩展。除了支持向半监督模型的转变外,我们的发现还强调了研究模型和获取方法的重要性。
Apr, 2024
提出了一种将概率模型和主动学习结合起来的新算法,用于降低自动化文本分类的标注成本,实现对未标注数据和难分类文档的集中标注,性能可与最先进的方法相媲美,使用原有标注数据比最近发布的两篇研究中仅用一小部分标注数据得出的结论相同,并提供了 activeText 软件。
Feb, 2022
本文研究了如何在不可靠的情况下评估主动学习算法在训练期间的性能,并提出了三个主要挑战:如何推导性能分布,如何保留标记子集的代表性,以及如何纠正由于智能选择策略而引起的抽样偏差。
Jan, 2019