Feb, 2022

LST: 基于词典引导的自训练在小样本文本分类中的应用

TL;DR本文介绍了一种使用词汇表来指导伪标记机制的简单的自训练方法,即LST。通过使用语言丰富的方式,我们不断优化词汇表来预测未见数据的置信度,从而更好地教授伪标签,实现了5个基准数据集每个类别30个标注样本的1.0-2.0%的性能提高。