我们提出了一种基于神经网络的半监督文本分类器,利用自训练的正负属性。为了解决自训练中的语义漂移问题,我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外,我们还提出了一种混合度量方法来代替简单的置信度测量,以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型,并表明它明显优于十个多样化的基准模型。同时,我们展示了我们的模型对于语言模型预训练的改进具有附加性。
Dec, 2023
本文介绍了二元和多类分类的自学习方法及其变体,并探讨了一些新的方法。我们评估了这些方法在不同的基准分类数据集上的表现,并提出了未来研究的思路。这是首个完整分析的经验综述。
Feb, 2022
本文研究了一种使用自训练方法的半监督学习,提出了 SentAugment 数据增强方法,并取得了在文本分类任务上高达 2.6% 的改进。
Oct, 2020
本文介绍了多种改进的方法以减轻自我训练管道中的确认偏差,评估了这些改进在多个数据集上的表现,证明在现有的自我训练设计选择上实现了性能增益,并研究了增强方法对未知类别的 Open Set 无标签数据的扩展性。
Jan, 2023
本文提出了一种基于自训练的半监督学习方法,通过加入 label 缺失的无标签数据和模型预测,模型的性能和精确度可以得到有效的提升,而 dropout 和注入噪声则是关键操作。
Sep, 2019
本文提出了一种基于贝叶斯深度学习的半监督学习方法,通过利用大规模未标记数据集,以文本分类为应用场景,仅使用 20-30 个样本能够训练出预训练语言模型的近似精度,相较于基线提高 12% 以上。
Jun, 2020
本文提出了一种半监督文本分类的新型和简单的方法 - Delta-training,该方法使用先前预训练好的单词嵌入来初始化分类器的词嵌入,同时使用自训练框架的无标签数据和提前停止的方式来提高性能。
Jan, 2019
本论文综述了自监督预训练技术及其在序列迁移学习框架中的应用,包括自监督学习和迁移学习的分类体系、设计跨不同领域的预训练任务的突出方法以及近期趋势和未来研究方向。
Jul, 2020
本文提出了一种弱监督文本分类方法,其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块,具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点,并在三个真实数据集上进行了广泛的实验,结果表明其大幅优于基准方法而不需要过多的训练数据。
Sep, 2018
使用半监督的方法(self-training)从未标记的数据中获取伪标签来改善运用主动学习进行文本分类的效率,通过进行广泛的实验,提出了一种新的有效的 self-training 策略(HAST),并在四个文本分类基准数据集上进行了评估,仅使用 25% 的数据,超过了之前实验的分类结果,达到了与三个数据集的先前实验相当的分类效果。
Jun, 2024