Augmenty:Python 结构化文本增强库
本文介绍了 NL-Augmenter—— 一个基于 Python 的自然语言增强框架,支持创建转换和筛选器,同时提供 117 个转换和 23 个筛选器,以增强模型中的数据。我们演示了 NL-Augmenter 的有效性,并使用其转换来分析流行的自然语言模型的鲁棒性。
Dec, 2021
介绍了一个数据增强库 AugLy,特别注重对抗性鲁棒性,提供了多种不同类型数据增强方式,可用于任何数据增强的任务中,具有系统生成对抗性攻击和评估模型鲁棒性的实用性。
Jan, 2022
本研究探索了一种名为 GenAug 的文本生成数据增强方法,利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调,并研究了增强数量与生成文本质量之间的关系,实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法,生成质量在原始数据量的三倍左右达到峰值。
Oct, 2020
Augmentor 是一个 Python 和 Julia 版本的软件包,使用基于管道的随机方法对现有观察数据进行数据增强,并提供大量常用机器学习数据增强任务的助手函数和多种高级特性。
Aug, 2017
本研究提出 BOOSTAUG,这个基于预训练语言模型的文本增强方法重点在于增强实例过滤,而不是生成,解决现有文本增强方法中的性能下降和特征空间漂移等问题。结果表明,在句子级文本分类和基于方面的情感分类上,BOOSTAUG 均取得了最先进的性能,该方法是灵活的,可以改进现有的增强方法。
Oct, 2022
本工程研究了文本数据增强预处理技术,使用了常见的技术,如噪声注入,词法替换和生成的近义词,如后向转换或通过句法树的转换。使用这些技术,通过增加只有五个数据放大因子,已经使得在文本极性预测标准化任务上神经网络的准确度在 4.3% 到 21.6%的范围内获得了不错的提升,而且部分标准深度神经网络架构也都进行了测试。
Dec, 2018
本文提出了一种新的句法感知数据增强策略,使用输入句子的依存句法树来确定每个句子中单词的选择概率,以有效增强神经机器翻译的翻译性能。实验表明,所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。
Apr, 2020
本文研究了不同的文本扩充方法在分类应用中的影响,通过使用包括社交媒体和新闻文章在内的三个数据集,我们发现基于 Word2vec 的文本扩充是一种可行的选择,并且使用 mixup 可以进一步提高性能,并降低过拟合的影响。同时,通过翻译服务进行往返翻译的效果不如其他方法好,并且成本较高,适用性较差。
Jul, 2019
本文提出了一种基于 ChatGPT 的文本数据增强方法(AugGPT),通过将训练样本中的每个句子重新表达为多个概念上相似但语义上不同的样本,提高了数据不变性和样本大小,并在少样本学习文本分类任务上取得了优越性能。
Feb, 2023
数据增强是解决有限数据集挑战的关键技术之一,本文介绍了新开发的 AugmenTory 库,该库相较于现有方法在时间和空间上具备较低的计算需求,并且包括后处理阈值特性。
May, 2024