基于课程的自训练提高数据到文本生成的少样本学习效果

IJCAIJun, 2022

基于课程的自训练提高数据到文本生成的少样本学习效果

Curriculum-Based Self-Training Makes Better Few-Shot Learners for Data-to-Text Generation

Pei Ke, Haozhe Ji, Zhenyu Yang, Yi Huang, Junlan Feng...

TL;DR本研究提出一种基于自学习的数据到文本生成方法，通过前置学习模型生成的伪标签数据，显式地捕捉数据和文本之间的复杂关系，以及一种称为基于课程设置的自学习 (CBST) 的新方法来缓解伪标签数据的质量问题，在少量标记的数据集下显著优于基于现有技术的元认知预训练和微调方法，本方法成为数据到文本生成领域中的最佳方法。

Abstract

Despite the success of text-to-text pre-trained models in various natural language generation (NLG) tasks, the generation performance is largely restricted by the number of labeled data in downstream tasks, particularly in →

text-to-text pre-trained models data-to-text generation tasks self-training few-shot learner curriculum-based self-training (cbst)

发现论文，激发创造

自训练提高了面向任务的对话系统中 Few-shot 学习的预训练

研究通过自我训练的方法，利用大量未标记的对话数据进一步改进预先训练的模型，以应对高昂的对话系统不同模块的标注成本问题，并证明该方法在少量标记数据可利用时可以一致提高现有预先训练模型的性能。

Aug, 2021

LST: 基于词典引导的自训练在小样本文本分类中的应用

本文介绍了一种使用词汇表来指导伪标记机制的简单的自训练方法，即 LST。通过使用语言丰富的方式，我们不断优化词汇表来预测未见数据的置信度，从而更好地教授伪标签，实现了 5 个基准数据集每个类别 30 个标注样本的 1.0-2.0％的性能提高。

Feb, 2022

自我训练提升自然语言理解的预训练

本文研究了一种使用自训练方法的半监督学习，提出了 SentAugment 数据增强方法，并取得了在文本分类任务上高达 2.6% 的改进。

Oct, 2020

使用自我训练提高数据到文本生成的组合泛化能力

本文研究了结构化意义表示到自然语言生成中 T5 模型的泛化问题，提出了基于模板的输入表示和基于 fine-tuned BLEURT 的自训练方法来改善模型的泛化和性能，在少样本场景下通过常用的 SGD 和 Weather 基准测试取得了比强基线模型 46% 以上的提升和 73% 以上的错误率降低。

Oct, 2021

神经序列生成的自训练再探

本文提出了一种基于自训练的半监督学习方法，通过加入 label 缺失的无标签数据和模型预测，模型的性能和精确度可以得到有效的提升，而 dropout 和注入噪声则是关键操作。

Sep, 2019

面向少标签文本分类的不确定性自训练

本文提出了一种基于贝叶斯深度学习的半监督学习方法，通过利用大规模未标记数据集，以文本分类为应用场景，仅使用 20-30 个样本能够训练出预训练语言模型的近似精度，相较于基线提高 12% 以上。

Jun, 2020

预训练神经机器翻译模型的强化课程学习

本文针对神经机器翻译中如何最佳利用具有多样性质和不同质量级别的数据样本提出了数据选择框架，通过筛选对模型性能有重要影响的样本来改进已经预先训练过的模型。实验表明，所提出的基于确定性演员 - 评论家 (Deterministic Actor-Critic) 的数据选择方法能够在不增加新的训练数据的情况下显著提高翻译质量，并大幅优于其他强基线方法。

Apr, 2020

自我监督元学习用于少样本自然语言分类任务

本文提出了一种自监督的方法来生成大量的 meta-learning 任务分布，通过这种方法，将 transformer 模型的预训练与 meta-learning 相结合，证明了这种方法能够在 NLP 任务上实现更好的少样本泛化。

Sep, 2020

基于 LM 的文本增强的神经数据到文本生成

通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。

Feb, 2021

自训练的零样本文本分类

本文提出一种基于自训练方法的插入式零样本文本分类技术，无需领域专业知识或经验，仅需要类别标签和无标记数据，可显著提高性能，适用于各种文本分类任务。

Oct, 2022