少样本文本分类中引导生成式语言模型进行数据增强

EMNLPNov, 2021

少样本文本分类中引导生成式语言模型进行数据增强

Guiding Generative Language Models for Data Augmentation in Few-Shot Text Classification

Aleksandra Edwards, Asahi Ushio, Jose Camacho-Collados, Hélène de Ribaupierre, Alun Preece

TL;DR本研究利用 GPT-2 生成人工数据增广样本，探究种子数据对生成样本和分类器性能的影响，结果表明在有限的标签实例下将 GPT-2 微调可以实现稳定的分类性能改进，而通过领域专家选择指导此过程可实现进一步提高的效果，这为结合生成模型和主动学习提供了有趣的研究方向。

Abstract

data augmentation techniques are widely used for enhancing the performance of machine learning models by tackling class imbalance issues and data sparsity. State-of-the-art generative language models have been sh

data augmentation generative language models gpt-2 text classification active learning

发现论文，激发创造

AugGPT：利用 ChatGPT 进行文本数据增强

本文提出了一种基于 ChatGPT 的文本数据增强方法（AugGPT），通过将训练样本中的每个句子重新表达为多个概念上相似但语义上不同的样本，提高了数据不变性和样本大小，并在少样本学习文本分类任务上取得了优越性能。

Feb, 2023

安全分类任务中的数据集扩增文本生成

本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用，并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估，我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型；特别是在已知阳性样本严重不足的情况下，GPT-3 数据增强策略带来了显著的好处。

Oct, 2023

基于 LM 的文本增强的神经数据到文本生成

通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。

Feb, 2021

GPT3Mix：利用大规模语言模型进行文本增强

本文提出一种新的数据增广技术，利用大规模的语言模型从混合的样本中生成逼真的文本样本，并利用语言模型预测的软标签，从大规模语言模型中蒸馏知识并同时创建文本扰动，我们在多元化的分类任务上进行数据增广实验，并展示了该方法远远优于现有的文本增广方法，消融研究和定性分析提供了更多的见解。

Apr, 2021

使用现成大型语言模型进行意图分类的数据增强

本研究提出了一种基于提示的方法，使用诸如 GPT-3 等预训练语言模型来生成带标签的意图分类的训练数据，与需要对数据生成进行任务特定的 LM 微调的方法相比，该方法不需要超参数调整，即使在训练数据非常缺乏的情况下也适用，并且评估结果表明，当考虑到的意图彼此足够不同时，GPT 生成的数据可以显著提高意图分类器的性能；而在半导体上的那些任务中，生成的数据的效果较差，原因是 GPT 经常生成错误的语句，而不是所需的语句。

Apr, 2022

GenAug：用于微调文本生成器的数据增强

本研究探索了一种名为 GenAug 的文本生成数据增强方法，利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调，并研究了增强数量与生成文本质量之间的关系，实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法，生成质量在原始数据量的三倍左右达到峰值。

Oct, 2020

使用 ChatGPT 生成和增强训练数据的 ZeroShotDataAug

利用生成式语言模型 ChatGPT 生成合成训练数据，以增强低资源场景下的数据，我们使用特定任务的 ChatGPT 提示，表现优于现有方法，并研究了评估合成数据相似性的方法，以验证和评估所生成数据的质量。

Apr, 2023

利用基于提示的数据增强提高黑盒少样本文本分类

本文提出了一种名为 BT-Classifier 的方法，它通过对数据进行数据增强、把黑盒模型作为特征提取器以及使用小型的辅助语言模型的 prompt-based 微调训练分类器，达到了在不访问大型模型的梯度的情况下优化零样本学习任务的效果，并在 8 个文本分类数据集上取得了与全模型调整方法相当的成果。

May, 2023

利用 GPT-3 扩充数据，提高短文本分类的性能

该研究针对 GPT-3 模型训练数据不足的问题，通过自动生成的样本增强小型训练集，在数据科学相关问题分类任务中比较了两种分类器的效果，证明了给予大型机器学习模型如 GPT-3 自己提出附加训练示例可以提高分类性能的结论。

May, 2022

仅需提示和样本，使用 GPT-4 在低资源分类任务中进行数据增强

本文通过简单的提示使用 GPT-4 和 ChatGPT 增强有限的标注语料库，用于三种不同的分类任务，在低资源环境中通过生成的合成样本，测试了两种扩充策略：一种是维护原始标签分布，另一种则是平衡分布，实验发现，合成数据有助于实现很好的下游任务效果和极少见类别的识别。

Apr, 2023