利用模式挖掘训练的少样本文本生成

EMNLPDec, 2020

利用模式挖掘训练的少样本文本生成

Few-Shot Text Generation with Pattern-Exploiting Training

Timo Schick, Hinrich Schütze

TL;DR该研究中，给出了一种基于预训练语言模型和样本示例结合的方法来解决文本生成的任务，并介绍了基于此方法的 GenPET。实验表明，该方法在摘要和标题生成数据集上的表现均优于常规方法。

Abstract

Providing pretrained language models with simple task descriptions in natural language enables them to solve some tasks in a fully unsupervised fashion. Moreover, when combined with regular learning from examples, this idea yields impressive few-shot results for a wide range of text cl

pretrained language models unsupervised learning few-shot learning text generation genpet

发现论文，激发创造

利用 Cloze 问题进行少样本文本分类和自然语言推理

本文介绍了一种半监督式的训练程序，称之为 PET，用来在低资源环境下学习某些 NLP 任务，并通过将输入示例转化为填空样式的短语来帮助语言模型理解给定任务

Jan, 2020

改进和简化模式利用训练

本文介绍了一种名为 ADAPET 的方法，可以在没有无标注数据的情况下提高 few-shot learning 的性能，在 SuperGLUE 基准测试中表现优于 Pattern Exploiting Training。

Mar, 2021

利用模式挖掘训练增强表格推理

本文采用 Pattern-Exploiting Training 技术对预训练语言模型进行强化，在知识事实和表格推理方面优于当前基准，且更有效地支持信息选项卡的底层推理任务，且该模型对各种字符和单词级扰动具有鲁棒性。

Oct, 2022

SocialPET: 社交媒体中少样本立场检测的社交信息指导模式利用训练

社交媒体上的立场检测任务中，我们提出了一种社交感知的方法 SocialPET 来利用语言模型，该方法在仅拥有少量标注实例的情况下，在两个立场数据集上表现出色。

Mar, 2024

Active PETs: 利用 Pattern Exploiting 训练进行少样本论断验证的主动数据标注优先性

提出 Active PETs 方法，利用多种语言模型的 Pattern Exploiting Training 模型的集成来主动选择未标记数据作为标注候选数据。在使用六个不同的预训练语言模型和两个技术事实验证数据集的 few-shot 数据选择上，使用 Active PETs 显示持续改进基线方法，并通过 Active PETs-o 取得更进一步的提高。该方法能够有效选择要标记的实例，即在未标记数据充足但标记资源有限的情况下，使得 few-shot 辩称验证性能持续提高。

Aug, 2022

真正的提示式几 - shot 学习 —— 从现实角度出发

PET 方法结合文本说明与示例微调，在真实的 few-shot 设置实现强大的性能表现，在 RAFT 基准下取得了新的最高水平，并在 11 项任务中有 7 项接近于非专家人类表现。

Nov, 2021

Grad2Task: 使用梯度表示任务的改进少样本文本分类

本文提出了一种基于条件神经过程的方法，用于 few-shot 文本分类，通过从其他各种丰富注释的任务中迁移学习，利用梯度信息从基础模型中表示每个任务，并训练一个调整网络来调整一个文本分类器，受任务表示的条件约束，实验结果表明，这种方法在多个 few-shot 任务上的表现优于传统的 fine-tuning、序列迁移学习和最先进的元学习方法。

Jan, 2022

基于知识引导的小样本文本分类度量学习

本文介绍了使用外部知识来提升深度学习文本分类模型的 few-shot 学习能力，从而实现少量标注数据就能获得高性能的目的。作者在此基础上提出了一种新的参数生成网络，其能够利用外部知识生成关系网络参数，并将这些参数应用于多个任务中，以实现多个任务之间度量的转换。实验结果表明这种方法优于已有的 few-shot 文本分类模型。

Apr, 2020

跨多种自然语言分类任务学习少样本学习

LEOPARD 是一种基于元学习的方法，使用少量标记的数据可优化跨任务进行学习，适用于 NLP 分类任务中的不同类数，并表现出比自监督预训练或多任务训练更好的泛化能力。

Nov, 2019

搜索与学习：改进数据到文本生成的语义涵盖率

该论文提出一种搜索和学习的方法来解决低语义覆盖率问题，进而提高 data-to-text 生成中预训练语言模型的效率，并在 E2E 和 WikiBio 数据集上实现了高性能。

Dec, 2021