小标记和大无标记集合下的神经网络抵抗（以及支持）自训练：分类

ACLDec, 2023

小标记和大无标记集合下的神经网络抵抗（以及支持）自训练：分类

Neural Networks Against (and For) Self-Training: Classification with Small Labeled and Large Unlabeled Sets

Payam Karisani

TL;DR我们提出了一种基于神经网络的半监督文本分类器，利用自训练的正负属性。为了解决自训练中的语义漂移问题，我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外，我们还提出了一种混合度量方法来代替简单的置信度测量，以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型，并表明它明显优于十个多样化的基准模型。同时，我们展示了我们的模型对于语言模型预训练的改进具有附加性。

Abstract

We propose a semi-supervised text classifier based on self-training using one positive and one negative property of neural networks. One o

semi-supervised text classifier self-training pseudo-labels neural networks language model pretraining

发现论文，激发创造

利用自我预训练的半监督文本分类

该研究提出了一种名为 Self-Pretraining 的神经半监督学习模型，该模型可以无阈值地更新先前标记的文档的信念，并且可以处理语义漂移问题，使用迭代蒸馏过程，跨迭代传输假设，利用两阶段训练模型，使用高效的学习率调度和使用伪标签转换启发式方法。

Sep, 2021

控制性弱监督训练神经网络：避免重复导师的错误

该研究提出了一种半监督学习方法，利用一个 “目标网络” 和一个 “置信网络” 进行多任务训练，在大量弱注释未标注数据上优化目标网络，同时用置信网络的分数来加权目标网络的梯度更新，以避免噪声标签对目标网络模型的质量造成损害，并在评估中证明其相对基线的性能得到提高，同时从弱标签中提高了学习速度。

Nov, 2017

面向少标签文本分类的不确定性自训练

本文提出了一种基于贝叶斯深度学习的半监督学习方法，通过利用大规模未标记数据集，以文本分类为应用场景，仅使用 20-30 个样本能够训练出预训练语言模型的近似精度，相较于基线提高 12% 以上。

Jun, 2020

自学习：一项调查

本文介绍了二元和多类分类的自学习方法及其变体，并探讨了一些新的方法。我们评估了这些方法在不同的基准分类数据集上的表现，并提出了未来研究的思路。这是首个完整分析的经验综述。

Feb, 2022

增强自训练方法

本文介绍了多种改进的方法以减轻自我训练管道中的确认偏差，评估了这些改进在多个数据集上的表现，证明在现有的自我训练设计选择上实现了性能增益，并研究了增强方法对未知类别的 Open Set 无标签数据的扩展性。

Jan, 2023

弱监督神经文本分类

本文提出了一种弱监督文本分类方法，其包括一个利用种子信息生成伪标签文档进行模型预训练的伪文档生成器和一个在真实未标记数据上引导模型改进的自训练模块，具有处理不同类型弱监督任务和易于与深度神经网络模型集成等优点，并在三个真实数据集上进行了广泛的实验，结果表明其大幅优于基准方法而不需要过多的训练数据。

Sep, 2018

邻域正则化自训练在少标签学习中的应用

本文提出了一种利用相似标签样本选择的自训练深度神经网络的方法，可有效降低错误伪标签产生的噪声影响，并均衡自训练过程性能提高和时间效率优化的关系。

Jan, 2023

神经序列生成的自训练再探

本文提出了一种基于自训练的半监督学习方法，通过加入 label 缺失的无标签数据和模型预测，模型的性能和精确度可以得到有效的提升，而 dropout 和注入噪声则是关键操作。

Sep, 2019

自我训练提升自然语言理解的预训练

本文研究了一种使用自训练方法的半监督学习，提出了 SentAugment 数据增强方法，并取得了在文本分类任务上高达 2.6% 的改进。

Oct, 2020

自监督深度网络无标签数据自训练的理论分析

本研究提出了一种统一的理论分析方法，以解释使用深度神经网络进行自训练的半监督学习、无监督领域适应和无监督学习。结果表明，在使用输入一致性正则化的自训练和输入准确性正则化的人口目标的最小化器下，假定数据的一个低概率子集相对于该子集的大概率邻域具有扩张性，而不同类别的样本邻域具有最小的重叠，可以达到与基准真实标签高精度的结果。

Oct, 2020