Oct, 2023

安全分类任务中的数据集扩增文本生成

TL;DR本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用,并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估,我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型;特别是在已知阳性样本严重不足的情况下,GPT-3 数据增强策略带来了显著的好处。