软件电子设计自动化：以软标签重构基于规则的数据增强

ICLRFeb, 2024

软件电子设计自动化：以软标签重构基于规则的数据增强

SoftEDA: Rethinking Rule-Based Data Augmentation with Soft Labels

Juhwan Choi, Kyohoon Jin, Junho Lee, Sangmin Song, Youngbin Kim

TL;DR我们提出了一种简单直接的技术，通过应用软标签来改善基于规则的文本数据增强方法在自然语言处理任务中的性能。通过在七个不同的分类任务上进行实验，我们在经验证明了我们的方法的有效性，并公开了源代码以便复现。

Abstract

rule-based text data augmentation is widely used for nlp tasks due to its simplicity. However, this method can potentially damage the original meaning of the text, ultimately hurting the →

rule-based text data augmentation soft labels nlp tasks performance source code

发现论文，激发创造

AutoAugment 是您所需的：增强基于规则的增强方法在低资源环境中的应用

本文提出了一种基于 AutoAugment 的方法来解决文本数据增强中的语义损害问题，并实验证明该方法可以改善现有的增强方法，并增强先进的预训练语言模型。

Feb, 2024

DAGA: 一种基于生成方法的数据增强技术，用于低资源标注任务

本研究提出了一种基于语言模型的数据增强方法，可以生成高质量的合成数据以提高机器学习性能，在监督和半监督学习环境下，实验结果表明，在给定较少的训练数据的情况下，该方法可以始终优于基准方法。

Nov, 2020

命名实体识别简单数据增强分析

本研究针对基于标记序列的命名实体识别任务，设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集（i2b2-2010 和 MaSciP）上进行实验，我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能，尤其是对于小训练集的情况。

Oct, 2020

NLP-LTU 在 SemEval-2023 任务 10 中：数据增强和半监督学习技术对不平衡数据集上文本分类性能的影响

本文提出了一种在社交媒体帖子中检测和分类在线性别歧视的方法，使用了 BERTweet、RoBERTa 和 DeBERTa 等 fine-tuned transformer-based 模型，并采用数据增强和半监督学习来改善模型的泛化能力和应对类别不平衡问题，在 SubtaskA 获得了 0.8613 的 F1 得分，排名第十。

Apr, 2023

神经机器翻译的软上下文数据增强

本文提出了一种新颖的神经机器翻译数据增强方法，即通过语言模型提供的词汇分布来增强句子中的特定单词，从而比之前的增强方法更好地捕捉上下文语义信息。实验结果表明该方法在小规模和大规模机器翻译数据集上都优于强基线。

May, 2019

数据不足？深度学习来救援！

通过现有的自然语言处理技术和文本生成能力，我们提出了一种新的数据增强方法，即基于语言模型的数据增强 (LAMBADA)，它可以在有限标注数据的情况下用强大的预训练神经网络模型合成新的有标注数据，进而提高文本分类任务性能。

Nov, 2019

基于语法的命名实体识别数据增强

本研究探讨了在低资源条件下如何使用数据增强技术来提高命名实体识别任务的性能，并比较了简单的掩码语言模型替换和基于句法树变异的数据增强方法，以保持增强后句子的语言连贯性。

Aug, 2022

通过决策边界感知的数据增强在低资源环境中提高效果和鲁棒性

该研究提出了一种基于决策边界的数据增强策略，利用预训练语言模型来提高鲁棒性；该技术首先将潜在特征接近决策边界，然后通过重构生成一个带有软标签的模糊版本，并建议使用中点 K 采样来增强生成句子的多样性。通过大量实验证明了该增强策略与其他方法相比的性能，同时深入研究了软标签和中点 K 采样的效果以及该方法在课程数据增强中的可扩展性。

Mar, 2024

自然语言处理中有限数据学习的数据增强实证调查

本文旨在系统评估了在有限标注数据情境下的 Natural Language Processing（NLP）中数据增强方法的进展和方法景观，总结了包括标记级别增强、句子级别增强、对抗性增强和隐藏空间增强等多种方法并在 11 个数据集上实验，分析了各种方法的适用情境，对 NLP 有限数据学习的挑战和未来方向进行了讨论。

Jun, 2021

探索社交媒体语料库上的数据增强方法

本研究探索了数据增强技术对文字分类的影响，使用多种数据增强技术，包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明，数据增强技术对模型性能只有轻微且不一致的改进，少数同义词替换可以提高模型性能，灰度缩放需要进一步研究，PTE 的表现优于监督学习，尤其是在类别容易分离的情况下。

Mar, 2023