AugGPT:利用 ChatGPT 进行文本数据增强
利用生成式语言模型 ChatGPT 生成合成训练数据,以增强低资源场景下的数据,我们使用特定任务的 ChatGPT 提示,表现优于现有方法,并研究了评估合成数据相似性的方法,以验证和评估所生成数据的质量。
Apr, 2023
在人工智能时代,数据虽然珍贵,但标注成本却很高。本文利用 ChatGPT 在情感分析中进行文本增强,展示了一种突破性的解决方案。我们利用 ChatGPT 的生成能力创造了合成训练数据,显著提高了较小模型的性能,使其能够与甚至胜过更大的对手。这一创新使得模型既高效又有效,同时降低了计算成本、推理时间和内存使用量,而不会降低质量。我们的工作在经济高效的情感分析模型的开发和部署方面取得了重要进展。
Dec, 2023
本文提出一种新的数据增广技术,利用大规模的语言模型从混合的样本中生成逼真的文本样本,并利用语言模型预测的软标签,从大规模语言模型中蒸馏知识并同时创建文本扰动,我们在多元化的分类任务上进行数据增广实验,并展示了该方法远远优于现有的文本增广方法,消融研究和定性分析提供了更多的见解。
Apr, 2021
本研究利用 GPT-2 生成人工数据增广样本,探究种子数据对生成样本和分类器性能的影响,结果表明在有限的标签实例下将 GPT-2 微调可以实现稳定的分类性能改进,而通过领域专家选择指导此过程可实现进一步提高的效果,这为结合生成模型和主动学习提供了有趣的研究方向。
Nov, 2021
本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用,并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估,我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型;特别是在已知阳性样本严重不足的情况下,GPT-3 数据增强策略带来了显著的好处。
Oct, 2023
本文通过简单的提示使用 GPT-4 和 ChatGPT 增强有限的标注语料库,用于三种不同的分类任务,在低资源环境中通过生成的合成样本,测试了两种扩充策略:一种是维护原始标签分布,另一种则是平衡分布,实验发现,合成数据有助于实现很好的下游任务效果和极少见类别的识别。
Apr, 2023
通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023
本文通过案例研究,以开放式意图检测任务为研究对象,探讨使用 ChatGPT 作为数据增强技术以提高组合泛化性能,通过构建数据集并整合 ChatGPT 生成的合成数据来训练模型,通过严格评估多个基准测试,发现我们的方法在开放式意图检测中表现优于现有技术,并显著提升了模型性能,从而突显出 ChatGPT 等大型语言模型在自然语言理解任务中作为数据增强方法的潜力。
Aug, 2023
本研究探索了一种名为 GenAug 的文本生成数据增强方法,利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调,并研究了增强数量与生成文本质量之间的关系,实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法,生成质量在原始数据量的三倍左右达到峰值。
Oct, 2020