基于预训练语言模型的样本高效主动学习自训练

Jun, 2024

基于预训练语言模型的样本高效主动学习自训练

Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language Models

Christopher Schröder, Gerhard Heyer

TL;DR使用半监督的方法（self-training）从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率，通过进行广泛的实验，提出了一种新的有效的 self-training 策略（HAST），并在四个文本分类基准数据集上进行了评估，仅使用 25% 的数据，超过了之前实验的分类结果，达到了与三个数据集的先前实验相当的分类效果。

Abstract

active learning is an iterative labeling process that is used to obtain a small labeled subset, despite the absence of labeled data, thereby enabling to train a model for supervised tasks such as text classification

active learning pre-trained language models self-training text classification semi-supervised approach

发现论文，激发创造

减少标注工作量：自监督活跃学习相遇

本研究针对减少标注工作的两种范式：主动学习和自学习，研究它们能否相互受益。在对象识别数据集（包括 CIFAR10、CIFAR100 和 Tiny ImageNet）上的实验证明：对于低的标注预算，主动学习对自学习没有帮助。当标注预算很高时，主动学习和自学习的组合是有益的。

Aug, 2021

自监督语言建模的冷启动主动学习

使用 BERT 预训练模型，通过最小化蒙版语言模型损失，实现在减少样本采样迭代和计算时间的同时，更高效地减少文本分类标注成本。

Oct, 2020

通过主动学习提高文本分类中的概率模型

提出了一种将概率模型和主动学习结合起来的新算法，用于降低自动化文本分类的标注成本，实现对未标注数据和难分类文档的集中标注，性能可与最先进的方法相媲美，使用原有标注数据比最近发布的两篇研究中仅用一小部分标注数据得出的结论相同，并提供了 activeText 软件。

Feb, 2022

主动学习的边际效益：自我监督是否自欺欺人？

本研究提供了一个将自我监督预训练、主动学习和一致性正则化自我训练整合的新算法框架，并在 CIFAR10 和 CIFAR100 数据集上进行了实验，揭示了自我监督预训练在半监督学习中的重要性，被 S4L 技术所替代的主动学习的价值。

Nov, 2020

基于预训练语言模型的句子匹配主动学习

本文提出了一种基于预训练语言模型的主动学习方法，应用于句子匹配，通过提供语言标准来测量实例并选择更有效的实例进行注释，实验证明该方法可以在更少的标记训练实例的情况下实现更高的准确性。

Oct, 2020

面向自然语言处理的预训练表征的高效主动学习

通过在主动学习循环中使用预训练的大型语言模型的表示，然后在获得所需标记数据后，对这些数据进行微调，从而以较低的计算成本实现与将完全微调的模型相似的性能。

Feb, 2024

主动学习：问题设置和最新发展

本文介绍了有监督学习中获取标记数据的高成本和获取大量未标记数据的轻松方法，以及通过自适应选择标记样本来获得高精度预测模型的主要问题设置和最近的研究趋势。重点介绍了选择从数据中进行标记的学习获取函数的研究、关于主动学习算法的理论工作和顺序数据获取的停止标准。介绍了材料开发和测量的应用示例。

Dec, 2020

零样本主动学习基于自监督学习

提出了一种新的无关模型且无需迭代过程的主动学习方法，利用自监督学习的特征表示来进行数据注释以提高深度学习模型的泛化性能。

Jan, 2024

法律文本分类的高效主动学习流程

本研究提出了一种在法律领域内使用主动学习与预训练语言模型的管道，其中利用了三个阶段的未标记数据，通过知识蒸馏引导模型的嵌入到一个语义上有意义的空间，并提出了一种简单而有效的策略找到初始的标记样本，实验表明相比传统方法在数据标注成本上更为高效且性能更好。

Nov, 2022

利用自监督预设任务进行主动学习的 PT4AL

本文提出一种创新的主动学习方法，利用自监督的预训练任务和独特的数据采样器，通过选择具有难度和代表性的数据来解决数据标注代价高的问题，并在各种图像分类和分割基准上取得了令人信服的性能。

Jan, 2022