DoubleMix: 简单的基于插值的数据增强方法用于文本分类

COLINGSep, 2022

DoubleMix: 简单的基于插值的数据增强方法用于文本分类

DoubleMix: Simple Interpolation-Based Data Augmentation for Text Classification

Hui Chen, Wei Han, Diyi Yang, Soujanya Poria

TL;DR提出了一种名为 DoubleMix 的插值数据增强方法，通过合成的数据集和原始数据集在神经模型的隐藏空间中进行插值，以及学习隐藏空间中的 “偏移” 特征来提高模型的鲁棒性，在六个文本分类基准数据集上，该方法优于几种流行的文本增强技术，同时在低资源情况下也能保持性能的提升。

Abstract

This paper proposes a simple yet effective interpolation-based data augmentation approach termed DoubleMix, to improve the robustness of models in text classification. DoubleMix first leverages a couple of simple

interpolation-based data augmentation text classification neural models robustness synthetic perturbed data

发现论文，激发创造

混合增强与多种插值

在本文中，我们提出了一种称为多重揉混（multi-mix）的简单而有效的扩展方法，它通过从样本对生成多个插值样本，可以比标准 mixup 更好地引导训练过程，从而在泛化性能、鲁棒性和校准度方面超过了各种 mixup 变体和非 mixup 基线。

Jun, 2024

使用 Mixup 增强数据进行句子分类：一项实证研究

本文提出了 Mixup 数据增强方法在句子分类中的应用策略，并在多个基准数据集上进行了实验验证，结果表明该技术是一种有效的、领域无关的数据增强方法，可使 CNN 和 LSTM 模型的预测准确性显著提高。

May, 2019

MixText: 语言知识驱动的隐藏空间插值半监督文本分类

提出了 MixText，这是一种用于文本分类的半监督学习方法，利用我们新设计的数据增强方法 TMix，在隐藏空间插值文本来创建大量的增强训练样本。混合标记的、未标记的和增强的数据，MixText 在几个文本分类基准测试中显著优于当前的预训练和微调模型以及其他最先进的半监督学习方法，尤其是在监督极度有限的情况下。我们已经在此 https URL 上公开发布了我们的代码。

Apr, 2020

Mixup-Transformer：NLP 任务的动态数据增强

本文尝试将最新的数据增强技术 Mixup 应用于自然语言处理领域，特别是在与 NLP 相关的 transformer-based 学习模型中。实验结果表明，Mixup 在预训练的语言模型中是一个独立于领域的数据增强技术，能够显著提高其性能。

Oct, 2020

AdMix：一种混合采样数据增强方法用于神经机器翻译

本文提出了一种新颖的 NMT 数据增强方法 ——AdMix，将弱离散噪声引入原始句对，生成新的合成训练数据，并将其与原始样本软混合，实验证明，该方法可显著提高翻译效果，特别是与 back-translation 等方法联合使用时，改进效果进一步增强。

May, 2022

数据插值预测: Mixup 的替代解释

提出了 Data Interpolating Prediction（DIP）框架，将样本混合过程与分类器的假设类封装在一起，从而使训练和测试样本受到平等对待，进而帮助降低 Rademacher 复杂度并减少泛化误差。DIP 在实证上表现比 Mixup 更优。

Jun, 2019

MSMix：一种基于插值的文本数据增强方法：流形交换 Mixup

提出了一种简单而有效的插值数据增强方法 MSMix，并在三个中文意图识别数据集上进行了实验，结果表明该方法在全样本和小样本配置下均取得了比其他方法更好的结果。

May, 2023

SegMix：一种简单的结构感知数据增强方法

提出了一种基于插值的数据增强算法 SegMix，该算法在具有任务特定结构的有意义的片段上进行插值，相比之前的方法在命名实体识别（NER）和关系抽取（RE）任务中表现更好，尤其在数据稀缺的情况下性能提升明显。

Nov, 2023

序列级混合样本数据增强

该研究提出了一种简单的数据增强方法 SeqMix，用于鼓励神经模型针对序列问题的组合行为，该方法可以使神经网络捕获自然语言中的组合特征，旨在提高机器翻译和语义分析等任务的性能。

Nov, 2020

PromptMix: 大型语言模型蒸馏的类边界增强方法

利用大型语言模型（LLM）生成边界类别的具有正确标签的辅助数据，从而促进了知识传递并改善了文本分类任务中的数据增强效果。

Oct, 2023