弱监督神经文本分类

Sep, 2018

Weakly-Supervised Neural Text Classification

Yu Meng, Jiaming Shen, Chao Zhang, Jiawei Han

TL;DR本文提出了一种弱监督文本分类方法，其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块，具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点，并在三个真实数据集上进行了广泛的实验，结果表明其大幅优于基准方法而不需要过多的训练数据。

Abstract

deep neural networks are gaining increasing popularity for the classic text classification task, due to their strong expressive power and less requirement for feature engineering. Despite such attractiveness, neural text classification models suffer from the lack of training data in ma

deep neural networks text classification weakly-supervised learning pseudo-document generator self-training module

发现论文，激发创造

弱监督层次文本分类

本文提出了一种弱监督的神经方法进行层次文本分类，通过生成伪文档进行模型预训练，并在真实无标签数据上进行自我训练，最终得到高效准确的分类模型。

Dec, 2018

控制性弱监督训练神经网络：避免重复导师的错误

该研究提出了一种半监督学习方法，利用一个 “目标网络” 和一个 “置信网络” 进行多任务训练，在大量弱注释未标注数据上优化目标网络，同时用置信网络的分数来加权目标网络的梯度更新，以避免噪声标签对目标网络模型的质量造成损害，并在评估中证明其相对基线的性能得到提高，同时从弱标签中提高了学习速度。

Nov, 2017

小标记和大无标记集合下的神经网络抵抗（以及支持）自训练：分类

我们提出了一种基于神经网络的半监督文本分类器，利用自训练的正负属性。为了解决自训练中的语义漂移问题，我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外，我们还提出了一种混合度量方法来代替简单的置信度测量，以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型，并表明它明显优于十个多样化的基准模型。同时，我们展示了我们的模型对于语言模型预训练的改进具有附加性。

Dec, 2023

基于小型数据集的神经数据 - 文本生成：在大型语言模型之上比较两种半监督学习方法的附加值

本研究探讨了半监督学习与预训练语言模型在数据生成文本方面的效果。结果表明，半监督学习方法可以增强输出质量和多样性，即使已经使用了预训练语言模型。

Jul, 2022

结合深度生成模型和多语言预训练进行半监督文档分类

本文结合半监督深度生成模型与多语预训练技术，设计了一套用于文档分类的流程，在多个语种的低资源场景中表现出极强的竞争力，胜过现有最先进的方法。

Jan, 2021

基于无监督误差估计的弱监督文本分类种子词的选择

本文旨在提出一种非专家确定种子词的弱监督文本分类方法，使用基于相应类别名称的候选种子词，训练过程中的中间模型会无监督地评估出候选种子词的错误率，并选出表现最佳的词汇作为最终的种子词，通过在各个数据集上的比较测试，证明该方法在二元分类任务上超过了只使用类别名称种子词的基准方法，并获得了与使用专家注释种子词相当的性能。

Apr, 2021

神经文本分类的去噪多源弱监督训练

研究了在没有任何标注数据的情况下，通过多种易于提供的规则作为多种弱监督源，学习神经文本分类器的问题，提出了一种标签降噪器，它使用条件软注意机制估计源的可靠性，然后通过聚合注释的弱标签降低标签噪声，然后使用这些清理过的伪标签来训练神经分类器。在情感，主题和关系分类的五个基准测试上进行了评估，结果表明，该模型始终优于最先进的弱监督和半监督方法，并且即使没有任何标注数据，也可以达到与全监督方法相当的性能水平。

Oct, 2020

弱监督自训练

本文提出一种基于弱监督、自训练、规则注意力网络和半监督学习的框架（ASTRA），利用所有可用数据来进行深度学习任务的训练，证明其在文本分类上有显著优势。

Apr, 2021

FastClass：一种高效的弱监督文本分类方法

本文提出了一种有效的弱监督分类方法 FastClass，它使用密集文本表示从外部无标签语料库中检索与类相关的文档，并选择最优子集来训练分类器，相比关键词驱动方法，我们的方法对初始类描述的依赖性更低且训练速度更快，实验证明在广泛的分类任务上，该方法的分类准确性通常优于关键词驱动模型并且训练速度对比关键词驱动方法快得多。

Dec, 2022

神经关键词生成的半监督学习

本篇论文探讨了如何利用半监督学习方法，在有限的有标签数据下，将无标签数据与有标签数据结合来提高关键短语生成的性能，实现多任务学习，通过无监督关键短语抽取方法或自学习算法得到的合成关键短语为无标签数据进行标注。实验结果表明，利用半监督学习的方法能够明显优于仅训练有标签数据的最先进模型。

Aug, 2018