基于大规模预训练的文本分类神经半监督学习

Nov, 2020

基于大规模预训练的文本分类神经半监督学习

Neural Semi-supervised Learning for Text Classification Under Large-Scale Pretraining

Zijun Sun, Chun Fan, Xiaofei Sun, Yuxian Meng, Fei Wu...

TL;DR本文研究了大规模语言模型预训练下半监督学习在文本分类任务中的应用及其效果，发现使用 U 集合（无监督数据）配合 D 集合（有监督数据）应用半监督学习策略可以在小样本数据集情况下达到高精度分类。

Abstract

The goal of semi-supervised learning is to utilize the unlabeled, in-domain dataset U to improve models trained on the labeled dataset D. Under the context of large-scale language-model (LM) pretraining, how we can make the best use of U is poorly understood: is →

semi-supervised learning large-scale language-model pretraining text classification in-domain pretraining pseudo-label based strategy

发现论文，激发创造

基于小型数据集的神经数据 - 文本生成：在大型语言模型之上比较两种半监督学习方法的附加值

本研究探讨了半监督学习与预训练语言模型在数据生成文本方面的效果。结果表明，半监督学习方法可以增强输出质量和多样性，即使已经使用了预训练语言模型。

Jul, 2022

结合深度生成模型和多语言预训练进行半监督文档分类

本文结合半监督深度生成模型与多语预训练技术，设计了一套用于文档分类的流程，在多个语种的低资源场景中表现出极强的竞争力，胜过现有最先进的方法。

Jan, 2021

自我训练提升自然语言理解的预训练

本文研究了一种使用自训练方法的半监督学习，提出了 SentAugment 数据增强方法，并取得了在文本分类任务上高达 2.6% 的改进。

Oct, 2020

小标记和大无标记集合下的神经网络抵抗（以及支持）自训练：分类

我们提出了一种基于神经网络的半监督文本分类器，利用自训练的正负属性。为了解决自训练中的语义漂移问题，我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外，我们还提出了一种混合度量方法来代替简单的置信度测量，以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型，并表明它明显优于十个多样化的基准模型。同时，我们展示了我们的模型对于语言模型预训练的改进具有附加性。

Dec, 2023

弱监督神经文本分类

本文提出了一种弱监督文本分类方法，其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块，具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点，并在三个真实数据集上进行了广泛的实验，结果表明其大幅优于基准方法而不需要过多的训练数据。

Sep, 2018

自然语言处理的半监督分类

本研究探讨了半监督分类在自然语言处理任务（如分析、生物医学信息处理、文本分类和摘要）中的可能性、成就以及复杂性和限制。

Sep, 2014

课程标记：重新审视半监督学习中的伪标记

本文重新审视了伪标记的概念，提出了一种基于半监督学习的方法，通过将伪标记应用于无标签集中的样本，并利用已训练好的模型标记这些样本，然后迭代重复此过程来训练模型。本文通过实验证明，伪标记方法可以取得与现有最先进方法相媲美甚至更好的结果，并且更能抵御未知分布样本。作者指出采用学习课程原理以及在每个自我训练周期前重启模型参数是实现这一点的两个关键因素。在 CIFAR-10 数据集上，本文仅使用了 4,000 个标记样本，达到了 94.91% 的准确率，在 Imagenet-ILSVRC 数据集上，本文仅使用了 10％的标记样本，达到了 68.87％的 top-1 的准确率。

Jan, 2020

半监督文本分类的渐进式类别语义匹配

本文介绍了一种基于预训练语言模型的半监督学习方法，借助其内在的主题匹配能力构建一个更强大的半监督学习方法，该方法不仅能极大地改善基线结果，而且总体更加稳定，在半监督文本分类方面实现了最先进的性能。

May, 2022

NLP-LTU 在 SemEval-2023 任务 10 中：数据增强和半监督学习技术对不平衡数据集上文本分类性能的影响

本文提出了一种在社交媒体帖子中检测和分类在线性别歧视的方法，使用了 BERTweet、RoBERTa 和 DeBERTa 等 fine-tuned transformer-based 模型，并采用数据增强和半监督学习来改善模型的泛化能力和应对类别不平衡问题，在 SubtaskA 获得了 0.8613 的 F1 得分，排名第十。

Apr, 2023

双向语言模型的半监督序列标注

本文探讨了一种半监督的方法，通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务，相比其他转移学习或添加标记数据和任务特定词典的方法，在命名实体识别和块分割等任务上实现了最先进的结果。

Apr, 2017