自我训练提升自然语言理解的预训练

Oct, 2020

自我训练提升自然语言理解的预训练

Self-training Improves Pre-training for Natural Language Understanding

Jingfei Du, Edouard Grave, Beliz Gunel, Vishrav Chaudhary, Onur Celebi...

TL;DR本文研究了一种使用自训练方法的半监督学习，提出了 SentAugment 数据增强方法，并取得了在文本分类任务上高达 2.6% 的改进。

Abstract

unsupervised pre-training has led to much recent progress in natural language understanding. In this paper, we study self-training as another way to leverage unlabeled data through →

unsupervised pre-training self-training semi-supervised learning sentaugment text classification

发现论文，激发创造

神经序列生成的自训练再探

本文提出了一种基于自训练的半监督学习方法，通过加入 label 缺失的无标签数据和模型预测，模型的性能和精确度可以得到有效的提升，而 dropout 和注入噪声则是关键操作。

Sep, 2019

增强自训练方法

本文介绍了多种改进的方法以减轻自我训练管道中的确认偏差，评估了这些改进在多个数据集上的表现，证明在现有的自我训练设计选择上实现了性能增益，并研究了增强方法对未知类别的 Open Set 无标签数据的扩展性。

Jan, 2023

面向少标签文本分类的不确定性自训练

本文提出了一种基于贝叶斯深度学习的半监督学习方法，通过利用大规模未标记数据集，以文本分类为应用场景，仅使用 20-30 个样本能够训练出预训练语言模型的近似精度，相较于基线提高 12% 以上。

Jun, 2020

学习如何自我学习：使用神经强化学习增强自我训练

本篇研究提出了基于深度强化学习的自训练策略，通过神经网络表示句子实现自动化的样本选择，实验结果表明该方法在标注性能和稳定性方面优于基线方案。

Apr, 2018

利用自我预训练的半监督文本分类

该研究提出了一种名为 Self-Pretraining 的神经半监督学习模型，该模型可以无阈值地更新先前标记的文档的信念，并且可以处理语义漂移问题，使用迭代蒸馏过程，跨迭代传输假设，利用两阶段训练模型，使用高效的学习率调度和使用伪标签转换启发式方法。

Sep, 2021

神经网络顺序转移自监督预训练调查

本论文综述了自监督预训练技术及其在序列迁移学习框架中的应用，包括自监督学习和迁移学习的分类体系、设计跨不同领域的预训练任务的突出方法以及近期趋势和未来研究方向。

Jul, 2020

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022

自训练方式提升语义分割

本文提出了一种半监督学习的方法，即自我训练范式，通过用标注数据训练教师模型并在大量未标注数据上生成伪标签，以较少的监督实现像素级准确模型，并在 Cityscapes，CamVid 和 KITTI 数据集上取得了最优表现，同时，在具有挑战性的跨域泛化任务上表现更佳，最后，为了减轻大量伪标签带来的计算负担，提出了一种快速训练计划来加速分割模型的训练。

Apr, 2020

通过输入变换的自监督标签增强

通过自监督学习，本文提出的单一统一任务学习方法能够有效地提高模型的准确性，并且在各种全监督学习场景下均具有广泛的适用性。

Oct, 2019

小标记和大无标记集合下的神经网络抵抗（以及支持）自训练：分类

我们提出了一种基于神经网络的半监督文本分类器，利用自训练的正负属性。为了解决自训练中的语义漂移问题，我们重新定义了伪标签的角色并构建了一个层次化的信息结构。此外，我们还提出了一种混合度量方法来代替简单的置信度测量，以克服神经网络输出的欠校准问题。我们在五个标准基准测试中评估我们的模型，并表明它明显优于十个多样化的基准模型。同时，我们展示了我们的模型对于语言模型预训练的改进具有附加性。

Dec, 2023