ACLDec, 2023

小标记和大无标记集合下的神经网络抵抗(以及支持)自训练:分类

TL;DR我们提出了一种基于神经网络的半监督文本分类器,利用自训练的正负属性。为了解决自训练中的语义漂移问题,我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外,我们还提出了一种混合度量方法来代替简单的置信度测量,以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型,并表明它明显优于十个多样化的基准模型。同时,我们展示了我们的模型对于语言模型预训练的改进具有附加性。