安全分类任务中的数据集扩增文本生成

Oct, 2023

安全分类任务中的数据集扩增文本生成

Text generation for dataset augmentation in security classification tasks

Alexander P. Welsh, Matthew Edwards

TL;DR本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用，并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估，我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型；特别是在已知阳性样本严重不足的情况下，GPT-3 数据增强策略带来了显著的好处。

Abstract

security classifiers, designed to detect malicious content in computer systems and communications, can underperform when provided with insufficient training data. In the security domain, it is often easy to find samples of the negative (benign) class, and challenging to find enough sam

security classifiers natural language text generators data augmentation strategies class-imbalances positive-class samples

发现论文，激发创造

少样本文本分类中引导生成式语言模型进行数据增强

本研究利用 GPT-2 生成人工数据增广样本，探究种子数据对生成样本和分类器性能的影响，结果表明在有限的标签实例下将 GPT-2 微调可以实现稳定的分类性能改进，而通过领域专家选择指导此过程可实现进一步提高的效果，这为结合生成模型和主动学习提供了有趣的研究方向。

Nov, 2021

AugGPT：利用 ChatGPT 进行文本数据增强

本文提出了一种基于 ChatGPT 的文本数据增强方法（AugGPT），通过将训练样本中的每个句子重新表达为多个概念上相似但语义上不同的样本，提高了数据不变性和样本大小，并在少样本学习文本分类任务上取得了优越性能。

Feb, 2023

GenAug：用于微调文本生成器的数据增强

本研究探索了一种名为 GenAug 的文本生成数据增强方法，利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调，并研究了增强数量与生成文本质量之间的关系，实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法，生成质量在原始数据量的三倍左右达到峰值。

Oct, 2020

GPT3Mix：利用大规模语言模型进行文本增强

本文提出一种新的数据增广技术，利用大规模的语言模型从混合的样本中生成逼真的文本样本，并利用语言模型预测的软标签，从大规模语言模型中蒸馏知识并同时创建文本扰动，我们在多元化的分类任务上进行数据增广实验，并展示了该方法远远优于现有的文本增广方法，消融研究和定性分析提供了更多的见解。

Apr, 2021

少则得多：在数据稀缺的情况下提高有毒语言分类

本论文通过系统研究，比较了八种不同的数据增强技术对有限标注数据下毒性语言分类器的性能影响，结果表明包括 GPT-2 生成的语句在内的三种数据增强技术能显著提升浅层分类器的表现，与 BERT 相比表现相近。同时讨论了性能和计算开销之间的相互影响，以探讨在不同约束条件下技术选择的影响。

Sep, 2020

利用 GPT-3 扩充数据，提高短文本分类的性能

该研究针对 GPT-3 模型训练数据不足的问题，通过自动生成的样本增强小型训练集，在数据科学相关问题分类任务中比较了两种分类器的效果，证明了给予大型机器学习模型如 GPT-3 自己提出附加训练示例可以提高分类性能的结论。

May, 2022

通过全局增强方法提高短文本分类效果

本文研究了不同的文本扩充方法在分类应用中的影响，通过使用包括社交媒体和新闻文章在内的三个数据集，我们发现基于 Word2vec 的文本扩充是一种可行的选择，并且使用 mixup 可以进一步提高性能，并降低过拟合的影响。同时，通过翻译服务进行往返翻译的效果不如其他方法好，并且成本较高，适用性较差。

Jul, 2019

使用现成大型语言模型进行意图分类的数据增强

本研究提出了一种基于提示的方法，使用诸如 GPT-3 等预训练语言模型来生成带标签的意图分类的训练数据，与需要对数据生成进行任务特定的 LM 微调的方法相比，该方法不需要超参数调整，即使在训练数据非常缺乏的情况下也适用，并且评估结果表明，当考虑到的意图彼此足够不同时，GPT 生成的数据可以显著提高意图分类器的性能；而在半导体上的那些任务中，生成的数据的效果较差，原因是 GPT 经常生成错误的语句，而不是所需的语句。

Apr, 2022

基于 LM 的文本增强的神经数据到文本生成

通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。

Feb, 2021

利用 NLP 云 API 简化文本数据增强

本工程研究了文本数据增强预处理技术，使用了常见的技术，如噪声注入，词法替换和生成的近义词，如后向转换或通过句法树的转换。使用这些技术，通过增加只有五个数据放大因子，已经使得在文本极性预测标准化任务上神经网络的准确度在 4.3% 到 21.6％的范围内获得了不错的提升，而且部分标准深度神经网络架构也都进行了测试。

Dec, 2018