SegMix：一种简单的结构感知数据增强方法

Nov, 2023

SegMix：一种简单的结构感知数据增强方法

SegMix: A Simple Structure-Aware Data Augmentation Method

Yuxin Pei, Pushkar Bhuse, Zhengzhong Liu, Eric Xing

TL;DR提出了一种基于插值的数据增强算法 SegMix，该算法在具有任务特定结构的有意义的片段上进行插值，相比之前的方法在命名实体识别（NER）和关系抽取（RE）任务中表现更好，尤其在数据稀缺的情况下性能提升明显。

Abstract

interpolation-based data augmentation (DA) methods (mixup) linearly interpolate the inputs and labels of two or more training examples. mixup

interpolation-based data augmentation mixup segmix named entity recognition relation extraction

发现论文，激发创造

使用 Mixup 增强数据进行句子分类：一项实证研究

本文提出了 Mixup 数据增强方法在句子分类中的应用策略，并在多个基准数据集上进行了实验验证，结果表明该技术是一种有效的、领域无关的数据增强方法，可使 CNN 和 LSTM 模型的预测准确性显著提高。

May, 2019

混合增强与多种插值

在本文中，我们提出了一种称为多重揉混（multi-mix）的简单而有效的扩展方法，它通过从样本对生成多个插值样本，可以比标准 mixup 更好地引导训练过程，从而在泛化性能、鲁棒性和校准度方面超过了各种 mixup 变体和非 mixup 基线。

Jun, 2024

DoubleMix: 简单的基于插值的数据增强方法用于文本分类

提出了一种名为 DoubleMix 的插值数据增强方法，通过合成的数据集和原始数据集在神经模型的隐藏空间中进行插值，以及学习隐藏空间中的 “偏移” 特征来提高模型的鲁棒性，在六个文本分类基准数据集上，该方法优于几种流行的文本增强技术，同时在低资源情况下也能保持性能的提升。

Sep, 2022

序列级混合样本数据增强

该研究提出了一种简单的数据增强方法 SeqMix，用于鼓励神经模型针对序列问题的组合行为，该方法可以使神经网络捕获自然语言中的组合特征，旨在提高机器翻译和语义分析等任务的性能。

Nov, 2020

Mixup-Transformer：NLP 任务的动态数据增强

本文尝试将最新的数据增强技术 Mixup 应用于自然语言处理领域，特别是在与 NLP 相关的 transformer-based 学习模型中。实验结果表明，Mixup 在预训练的语言模型中是一个独立于领域的数据增强技术，能够显著提高其性能。

Oct, 2020

MSMix：一种基于插值的文本数据增强方法：流形交换 Mixup

提出了一种简单而有效的插值数据增强方法 MSMix，并在三个中文意图识别数据集上进行了实验，结果表明该方法在全样本和小样本配置下均取得了比其他方法更好的结果。

May, 2023

全局混合：通过聚类消除歧义

提出基于全局聚类关系的新型数据扩增方法 ——Global Mixup，其中通过将先前的一阶段扩增过程分解为两阶段，从而将生成虚拟样本的过程与标记过程分离，并根据生成样本的全局关系计算子集对生成样本的标签重新标记，从而在更大的采样空间中生成更可靠的虚拟样本。在 CNN、LSTM 和 BERT 上的五项任务的广泛实验表明，Global Mixup 明显优于现有最新技术基线。

Jun, 2022

TransformMix: 从数据中学习变换和混合策略

数据增强通过合成更多的训练样本提高深度学习模型的泛化能力。TransformMix 是一种自动化方法，通过应用学习到的变换和混合扩增策略来创建具有正确和重要信息的混合图像，从而提高性能。

Mar, 2024

使用核变形函数为数据定制混合策略

动态地改变插值系数的分布以通过变形函数混合相似数据点，提出了一种既高效又灵活的框架，这样做既不会损失多样性，又会提高模型的性能和校准性。

Nov, 2023

数据插值预测: Mixup 的替代解释

提出了 Data Interpolating Prediction（DIP）框架，将样本混合过程与分类器的假设类封装在一起，从而使训练和测试样本受到平等对待，进而帮助降低 Rademacher 复杂度并减少泛化误差。DIP 在实证上表现比 Mixup 更优。

Jun, 2019