基于显著性的跨度混合增强文本分类方法：SSMix

ACLJun, 2021

基于显著性的跨度混合增强文本分类方法：SSMix

SSMix: Saliency-Based Span Mixup for Text Classification

Soyoung Yoon, Gyuwan Kim, Kyumin Park

TL;DR通过 SSMix，在输入文本上进行数据增强而不如之前的隐式向量操作，维持两个原始文本的局部性通过跨度混合以及保留更多与预测相关的标记，我们实验证明，相较于以前的隐式向量操作，我们的方法在包括文本蕴涵、情感分类和问句类型分类的广泛文本分类基准测试上具有更好的性能。

Abstract

data augmentation with mixup has shown to be effective on various computer vision tasks. Despite its great success, there has been a hurdle to apply →

data augmentation mixup nlp tasks ssmix text classification

发现论文，激发创造

MixText: 语言知识驱动的隐藏空间插值半监督文本分类

提出了 MixText，这是一种用于文本分类的半监督学习方法，利用我们新设计的数据增强方法 TMix，在隐藏空间插值文本来创建大量的增强训练样本。混合标记的、未标记的和增强的数据，MixText 在几个文本分类基准测试中显著优于当前的预训练和微调模型以及其他最先进的半监督学习方法，尤其是在监督极度有限的情况下。我们已经在此 https URL 上公开发布了我们的代码。

Apr, 2020

MSMix：一种基于插值的文本数据增强方法：流形交换 Mixup

提出了一种简单而有效的插值数据增强方法 MSMix，并在三个中文意图识别数据集上进行了实验，结果表明该方法在全样本和小样本配置下均取得了比其他方法更好的结果。

May, 2023

SelfMix: 自我混合训练抵御文本标签噪声的稳健学习

本文提出一种用于处理文本分类任务中标签噪声的简单而有效的方法 SelfMix，该方法使用高斯混合模型来分离样本，并利用半监督学习。实验结果表明，我们的方法在不同类型的文本噪声下，比设计用于文本和视觉数据的强基线表现更优秀。

Oct, 2022

使用 Mixup 增强数据进行句子分类：一项实证研究

本文提出了 Mixup 数据增强方法在句子分类中的应用策略，并在多个基准数据集上进行了实验验证，结果表明该技术是一种有效的、领域无关的数据增强方法，可使 CNN 和 LSTM 模型的预测准确性显著提高。

May, 2019

Co-Mixup: 基于显著性引导的超模复合联合 Mixup

本文提出了通过优化构建 mixup 数据的最佳方法以获得更好的神经网络推广性能和对数据干扰的鲁棒性，特别是使用基于模块化近似的迭代次模最小化算法来实现有效的 mixup 计算。

Feb, 2021

AttentionMix: 借助 BERT 注意机制的数据增强方法

AttentionMix 是一种基于注意力的新混合方法，适用于自然语言处理领域，通过评估在三个标准情感分类数据集上的表现，证实了基于注意力的信息在数据增强中的有效性。

Sep, 2023

SMSMix: 词义消歧的感知维护句子混淆

本论文提出了一种 Sense-Maintained Sentence Mixup (SMSMix) 的新型数据增强方法，维护特定词的含义并在 NLP 中应用 mixup 来提升数据集中稀有词义的准确性。在实验证明，该方法可以有效地提高数据增强的效果。

Dec, 2022

拼图混合：利用显著性和本地统计信息实现最佳混合

本研究提出了一种名为 Puzzle Mix 的混合方法，该方法使用卫星信息和自然例子的基本统计信息，以提高神经网络的性能和抗扰攻击能力。实验结果表明，Puzzle Mix 与其他混合方法相比，在 CIFAR-100、Tiny-ImageNet 和 ImageNet 数据集上均取得了最佳的泛化和对抗性鲁棒性结果。

Sep, 2020

DoubleMix: 简单的基于插值的数据增强方法用于文本分类

提出了一种名为 DoubleMix 的插值数据增强方法，通过合成的数据集和原始数据集在神经模型的隐藏空间中进行插值，以及学习隐藏空间中的 “偏移” 特征来提高模型的鲁棒性，在六个文本分类基准数据集上，该方法优于几种流行的文本增强技术，同时在低资源情况下也能保持性能的提升。

Sep, 2022

TiMix：文本感知的图像融合用于高效视觉语言预训练

Self-supervised Multi-modal Contrastive Learning (SMCL) 模型通过整合视觉和语言模态，使现代视觉 - 语言预训练（VLP）模型在无监督学习方面取得显著的进展。然而，由于网络采集的文本 - 图像对中存在噪声问题，在 SMCL 模型中增加训练数据量会带来相当大的计算成本和数据效率问题。为了提高 VLP 模型的数据效率，我们提出了 Text-aware Image Mixing（TiMix）方法，将基于混合的数据增强技术应用到 SMCL 模型中，能够在显著提升性能的同时，不会显著增加计算开销。我们从互信息（MI）的角度对 TiMix 进行了理论分析，表明混合的数据样本能够隐式地作为对比损失的正则化器。实验结果表明，与现有方法相比，即使减少了训练数据量并缩短了训练时间，TiMix 在下游任务上表现出了可比较的性能。该研究从实证和理论上证明了数据混合在数据高效和计算可行的 VLP 中的潜力，为 VLP 模型在实际场景中的广泛应用带来了好处。

Dec, 2023