Jun, 2024

基于预训练语言模型的样本高效主动学习自训练

TL;DR使用半监督的方法(self-training)从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率,通过进行广泛的实验,提出了一种新的有效的 self-training 策略(HAST),并在四个文本分类基准数据集上进行了评估,仅使用 25% 的数据,超过了之前实验的分类结果,达到了与三个数据集的先前实验相当的分类效果。