如何为文本数据增广选择 “好” 的样本

Feb, 2023

如何为文本数据增广选择 “好” 的样本

How to choose "Good" Samples for Text Data Augmentation

Xiaotian Lin, Nankai Lin, Yingwen Fu, Ziyu Yang, Shengyi Jiang

TL;DR本文提出了一种基于数据增强的自训练样本选择框架，使用熵和模型预测作为选择器，结合单词重叠和语义相似性来筛选高质量的样本。实验结果表明该框架是有效和简单的。

Abstract

deep learning-based text classification models need abundant labeled data to obtain competitive performance. Unfortunately, annotating large-size corpus is time-consuming and laborious. To tackle this, multiple r

deep learning text classification data augmentation sample selection self-training

发现论文，激发创造

少样本文本分类中引导生成式语言模型进行数据增强

本研究利用 GPT-2 生成人工数据增广样本，探究种子数据对生成样本和分类器性能的影响，结果表明在有限的标签实例下将 GPT-2 微调可以实现稳定的分类性能改进，而通过领域专家选择指导此过程可实现进一步提高的效果，这为结合生成模型和主动学习提供了有趣的研究方向。

Nov, 2021

探索社交媒体语料库上的数据增强方法

本研究探索了数据增强技术对文字分类的影响，使用多种数据增强技术，包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明，数据增强技术对模型性能只有轻微且不一致的改进，少数同义词替换可以提高模型性能，灰度缩放需要进一步研究，PTE 的表现优于监督学习，尤其是在类别容易分离的情况下。

Mar, 2023

安全分类任务中的数据集扩增文本生成

本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用，并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估，我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型；特别是在已知阳性样本严重不足的情况下，GPT-3 数据增强策略带来了显著的好处。

Oct, 2023

通过全局增强方法提高短文本分类效果

本文研究了不同的文本扩充方法在分类应用中的影响，通过使用包括社交媒体和新闻文章在内的三个数据集，我们发现基于 Word2vec 的文本扩充是一种可行的选择，并且使用 mixup 可以进一步提高性能，并降低过拟合的影响。同时，通过翻译服务进行往返翻译的效果不如其他方法好，并且成本较高，适用性较差。

Jul, 2019

基于 LM 的文本增强的神经数据到文本生成

通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。

Feb, 2021

文本分类数据增强调查

本文旨在提高机器学习分类系统的泛化能力，通过对数据进行转换的方式来人工创建训练数据，从而增强数据的多样性，该文章就在「文本分类」中，对数据增强方法及其应用目标做了详细概述与分类，最终针对相关领域，提出建设性思路方向。

Jul, 2021

少则得多：在数据稀缺的情况下提高有毒语言分类

本论文通过系统研究，比较了八种不同的数据增强技术对有限标注数据下毒性语言分类器的性能影响，结果表明包括 GPT-2 生成的语句在内的三种数据增强技术能显著提升浅层分类器的表现，与 BERT 相比表现相近。同时讨论了性能和计算开销之间的相互影响，以探讨在不同约束条件下技术选择的影响。

Sep, 2020

自适应数据增强的神经网络训练

提出了自适应数据增强（SPA）方法，自动和动态地选择适合的数据增强样本来训练神经网络，从而改善泛化性能，特别是在训练样本数量较少时。实验结果表明，该方法优于 RandAugment 方法。

Oct, 2020

基于摘要生成的数据增强方法用于文档分类

通过使用 SUMMaug，一种简单但有效的基于摘要的数据增强方法，我们能够解决预训练语言模型在理解长文本（如文档）时遇到的数据稀疏问题，并在文档分类任务中取得了稳健性和准确性上的优势。

Dec, 2023

强化器还是滤镜？重新思考预训练语言模型在文本分类增强中的作用

本研究提出 BOOSTAUG，这个基于预训练语言模型的文本增强方法重点在于增强实例过滤，而不是生成，解决现有文本增强方法中的性能下降和特征空间漂移等问题。结果表明，在句子级文本分类和基于方面的情感分类上，BOOSTAUG 均取得了最先进的性能，该方法是灵活的，可以改进现有的增强方法。

Oct, 2022