通过全局增强方法提高短文本分类效果

Jul, 2019

通过全局增强方法提高短文本分类效果

Improving short text classification through global augmentation methods

Vukosi Marivate, Tshephisho Sefara

TL;DR本文研究了不同的文本扩充方法在分类应用中的影响，通过使用包括社交媒体和新闻文章在内的三个数据集，我们发现基于 Word2vec 的文本扩充是一种可行的选择，并且使用 mixup 可以进一步提高性能，并降低过拟合的影响。同时，通过翻译服务进行往返翻译的效果不如其他方法好，并且成本较高，适用性较差。

Abstract

We study the effect of different approaches to text augmentation. To do this we use 3 datasets that include social media and formal text in the form of news articles. Our goal is to provide insights for practitioners and researchers on making choices for augmentation for classification

text augmentation word2vec mixup overfitting deep learning

发现论文，激发创造

探索社交媒体语料库上的数据增强方法

本研究探索了数据增强技术对文字分类的影响，使用多种数据增强技术，包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明，数据增强技术对模型性能只有轻微且不一致的改进，少数同义词替换可以提高模型性能，灰度缩放需要进一步研究，PTE 的表现优于监督学习，尤其是在类别容易分离的情况下。

Mar, 2023

利用 NLP 云 API 简化文本数据增强

本工程研究了文本数据增强预处理技术，使用了常见的技术，如噪声注入，词法替换和生成的近义词，如后向转换或通过句法树的转换。使用这些技术，通过增加只有五个数据放大因子，已经使得在文本极性预测标准化任务上神经网络的准确度在 4.3% 到 21.6％的范围内获得了不错的提升，而且部分标准深度神经网络架构也都进行了测试。

Dec, 2018

文本分类数据增强调查

本文旨在提高机器学习分类系统的泛化能力，通过对数据进行转换的方式来人工创建训练数据，从而增强数据的多样性，该文章就在「文本分类」中，对数据增强方法及其应用目标做了详细概述与分类，最终针对相关领域，提出建设性思路方向。

Jul, 2021

强化器还是滤镜？重新思考预训练语言模型在文本分类增强中的作用

本研究提出 BOOSTAUG，这个基于预训练语言模型的文本增强方法重点在于增强实例过滤，而不是生成，解决现有文本增强方法中的性能下降和特征空间漂移等问题。结果表明，在句子级文本分类和基于方面的情感分类上，BOOSTAUG 均取得了最先进的性能，该方法是灵活的，可以改进现有的增强方法。

Oct, 2022

文本增强技术在低资源机器翻译中的应用：斯瓦希里语案例研究

本研究旨在探讨将文本数据增强技术应用于低资源机器翻译的影响，研究表明在针对英斯瓦西里（En-Sw）数据集进行神经机器翻译时，文本分类任务中常用的三种数据增强技术（同义词替换、随机插入和上下文数据增强）均可提高系统性能，尤其是上下文数据增强技术。

Jun, 2023

安全分类任务中的数据集扩增文本生成

本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用，并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估，我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型；特别是在已知阳性样本严重不足的情况下，GPT-3 数据增强策略带来了显著的好处。

Oct, 2023

随机文本扰动的效果有时有效

探究数据增广方法在 NLP 中的效果和可泛化性，通过三个二进制文本匹配分类任务的大规模实验发现，随机文本扰动作为数据增广能给神经分类模型的测试集性能带来正面和负面的影响，具体取决于模型是否足够训练原始训练例子，但这与是否同时或分别应用五个随机文本编辑操作无关，研究强烈暗示随机文本扰动的效果任务特定，而不是普遍积极的。

Sep, 2022

GPT3Mix：利用大规模语言模型进行文本增强

本文提出一种新的数据增广技术，利用大规模的语言模型从混合的样本中生成逼真的文本样本，并利用语言模型预测的软标签，从大规模语言模型中蒸馏知识并同时创建文本扰动，我们在多元化的分类任务上进行数据增广实验，并展示了该方法远远优于现有的文本增广方法，消融研究和定性分析提供了更多的见解。

Apr, 2021

GenAug：用于微调文本生成器的数据增强

本研究探索了一种名为 GenAug 的文本生成数据增强方法，利用包括外部知识在内的各种增强方法在 Yelp 评论的子集上进行 GPT-2 微调，并研究了增强数量与生成文本质量之间的关系，实验表明插入字符级合成噪声和使用上位词进行关键词替换是有效的增强方法，生成质量在原始数据量的三倍左右达到峰值。

Oct, 2020

少则得多：在数据稀缺的情况下提高有毒语言分类

本论文通过系统研究，比较了八种不同的数据增强技术对有限标注数据下毒性语言分类器的性能影响，结果表明包括 GPT-2 生成的语句在内的三种数据增强技术能显著提升浅层分类器的表现，与 BERT 相比表现相近。同时讨论了性能和计算开销之间的相互影响，以探讨在不同约束条件下技术选择的影响。

Sep, 2020