基于大规模预训练的文本分类神经半监督学习
本研究探讨了半监督学习与预训练语言模型在数据生成文本方面的效果。结果表明,半监督学习方法可以增强输出质量和多样性,即使已经使用了预训练语言模型。
Jul, 2022
本文结合半监督深度生成模型与多语预训练技术,设计了一套用于文档分类的流程,在多个语种的低资源场景中表现出极强的竞争力,胜过现有最先进的方法。
Jan, 2021
我们提出了一种基于神经网络的半监督文本分类器,利用自训练的正负属性。为了解决自训练中的语义漂移问题,我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外,我们还提出了一种混合度量方法来代替简单的置信度测量,以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型,并表明它明显优于十个多样化的基准模型。同时,我们展示了我们的模型对于语言模型预训练的改进具有附加性。
Dec, 2023
本文提出了一种弱监督文本分类方法,其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块,具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点,并在三个真实数据集上进行了广泛的实验,结果表明其大幅优于基准方法而不需要过多的训练数据。
Sep, 2018
本文重新审视了伪标记的概念,提出了一种基于半监督学习的方法,通过将伪标记应用于无标签集中的样本,并利用已训练好的模型标记这些样本,然后迭代重复此过程来训练模型。本文通过实验证明,伪标记方法可以取得与现有最先进方法相媲美甚至更好的结果,并且更能抵御未知分布样本。作者指出采用学习课程原理以及在每个自我训练周期前重启模型参数是实现这一点的两个关键因素。在 CIFAR-10 数据集上,本文仅使用了 4,000 个标记样本,达到了 94.91% 的准确率,在 Imagenet-ILSVRC 数据集上,本文仅使用了 10%的标记样本,达到了 68.87%的 top-1 的准确率。
Jan, 2020
本文介绍了一种基于预训练语言模型的半监督学习方法,借助其内在的主题匹配能力构建一个更强大的半监督学习方法,该方法不仅能极大地改善基线结果,而且总体更加稳定,在半监督文本分类方面实现了最先进的性能。
May, 2022
本文提出了一种在社交媒体帖子中检测和分类在线性别歧视的方法,使用了 BERTweet、RoBERTa 和 DeBERTa 等 fine-tuned transformer-based 模型,并采用数据增强和半监督学习来改善模型的泛化能力和应对类别不平衡问题,在 SubtaskA 获得了 0.8613 的 F1 得分,排名第十。
Apr, 2023
本文探讨了一种半监督的方法,通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务,相比其他转移学习或添加标记数据和任务特定词典的方法,在命名实体识别和块分割等任务上实现了最先进的结果。
Apr, 2017