AugGPT:利用ChatGPT进行文本数据增强
本研究探索了一种名为GenAug的文本生成数据增强方法,利用包括外部知识在内的各种增强方法在Yelp评论的子集上进行GPT-2微调,并研究了增强数量与生成文本质量之间的关系,实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法,生成质量在原始数据量的三倍左右达到峰值。
Oct, 2020
本文提出一种新的数据增广技术,利用大规模的语言模型从混合的样本中生成逼真的文本样本,并利用语言模型预测的软标签,从大规模语言模型中蒸馏知识并同时创建文本扰动,我们在多元化的分类任务上进行数据增广实验,并展示了该方法远远优于现有的文本增广方法,消融研究和定性分析提供了更多的见解。
Apr, 2021
本篇论文提出了一种名为 AUGNLG 的新型数据增强方法,将自我训练的神经内存模型与少量训练的神经语言理解模型结合起来,自动从开放领域的文本中创建 MR-to-Text 数据,以提高自然语言生成的效率并在 FewShotWOZ 数据上表现优异。
Jun, 2021
本研究提出BOOSTAUG,这个基于预训练语言模型的文本增强方法重点在于增强实例过滤,而不是生成,解决现有文本增强方法中的性能下降和特征空间漂移等问题。结果表明,在句子级文本分类和基于方面的情感分类上,BOOSTAUG均取得了最先进的性能,该方法是灵活的,可以改进现有的增强方法。
Oct, 2022
本文研究了ChatGPT在25个多样化的自然语言处理任务(如情感分析、情感识别、态度检测、自然语言推断、词义消歧、语言可接受性和问答)中的表现及其个性化响应能力,并与现有的国际先进水平(SOTA)解决方案进行了比较。结果表明,任务难度越高(低SOTA表现),ChatGPT的损失越大。同时也揭示了ChatGPT偏见,在一定程度上限制了ChatGPT的有效性。
Feb, 2023
本研究评估了多语言文本处理技术的热门系统ChatGPT在37种不同的语言中进行的7项不同任务的表现,揭示了其在不同NLP任务和语言方面的表现与其他模型相比较差,需要进一步的研究来发展更好的模型和了解多语言学习。
Apr, 2023
利用生成式语言模型ChatGPT生成合成训练数据,以增强低资源场景下的数据,我们使用特定任务的ChatGPT提示,表现优于现有方法,并研究了评估合成数据相似性的方法,以验证和评估所生成数据的质量。
Apr, 2023
本文通过评估ChatGPT在各种自然语言处理任务中的表现,旨在验证其优缺点,并为未来的LLM研究提供思路。作者发现ChatGPT能够完成多种任务,取得很好的表现,但仍有许多难题需要解决。
May, 2023
在人工智能时代,数据虽然珍贵,但标注成本却很高。本文利用ChatGPT在情感分析中进行文本增强,展示了一种突破性的解决方案。我们利用ChatGPT的生成能力创造了合成训练数据,显著提高了较小模型的性能,使其能够与甚至胜过更大的对手。这一创新使得模型既高效又有效,同时降低了计算成本、推理时间和内存使用量,而不会降低质量。我们的工作在经济高效的情感分析模型的开发和部署方面取得了重要进展。
Dec, 2023
本研究解决了小型语言模型在自然语言推理任务中的性能差距问题,提出了一种通过ChatGPT进行数据集增强的新方法。研究发现,结合合成推理生成的策略能够显著提升模型的自然语言理解能力,使分类准确率提高了1.3%和2.3%。
Sep, 2024