基于显著性的跨度混合增强文本分类方法:SSMix
提出了 MixText,这是一种用于文本分类的半监督学习方法,利用我们新设计的数据增强方法 TMix,在隐藏空间插值文本来创建大量的增强训练样本。混合标记的、未标记的和增强的数据,MixText 在几个文本分类基准测试中显著优于当前的预训练和微调模型以及其他最先进的半监督学习方法,尤其是在监督极度有限的情况下。我们已经在此 https URL 上公开发布了我们的代码。
Apr, 2020
提出了一种简单而有效的插值数据增强方法 MSMix,并在三个中文意图识别数据集上进行了实验,结果表明该方法在全样本和小样本配置下均取得了比其他方法更好的结果。
May, 2023
本文提出一种用于处理文本分类任务中标签噪声的简单而有效的方法 SelfMix,该方法使用高斯混合模型来分离样本,并利用半监督学习。实验结果表明,我们的方法在不同类型的文本噪声下,比设计用于文本和视觉数据的强基线表现更优秀。
Oct, 2022
本文提出了 Mixup 数据增强方法在句子分类中的应用策略,并在多个基准数据集上进行了实验验证,结果表明该技术是一种有效的、领域无关的数据增强方法,可使 CNN 和 LSTM 模型的预测准确性显著提高。
May, 2019
本文提出了通过优化构建 mixup 数据的最佳方法以获得更好的神经网络推广性能和对数据干扰的鲁棒性,特别是使用基于模块化近似的迭代次模最小化算法来实现有效的 mixup 计算。
Feb, 2021
AttentionMix 是一种基于注意力的新混合方法,适用于自然语言处理领域,通过评估在三个标准情感分类数据集上的表现,证实了基于注意力的信息在数据增强中的有效性。
Sep, 2023
本论文提出了一种 Sense-Maintained Sentence Mixup (SMSMix) 的新型数据增强方法,维护特定词的含义并在 NLP 中应用 mixup 来提升数据集中稀有词义的准确性。在实验证明,该方法可以有效地提高数据增强的效果。
Dec, 2022
本研究提出了一种名为 Puzzle Mix 的混合方法,该方法使用卫星信息和自然例子的基本统计信息,以提高神经网络的性能和抗扰攻击能力。实验结果表明,Puzzle Mix 与其他混合方法相比,在 CIFAR-100、Tiny-ImageNet 和 ImageNet 数据集上均取得了最佳的泛化和对抗性鲁棒性结果。
Sep, 2020
提出了一种名为 DoubleMix 的插值数据增强方法,通过合成的数据集和原始数据集在神经模型的隐藏空间中进行插值,以及学习隐藏空间中的 “偏移” 特征来提高模型的鲁棒性,在六个文本分类基准数据集上,该方法优于几种流行的文本增强技术,同时在低资源情况下也能保持性能的提升。
Sep, 2022
Self-supervised Multi-modal Contrastive Learning (SMCL) 模型通过整合视觉和语言模态,使现代视觉 - 语言预训练(VLP)模型在无监督学习方面取得显著的进展。然而,由于网络采集的文本 - 图像对中存在噪声问题,在 SMCL 模型中增加训练数据量会带来相当大的计算成本和数据效率问题。为了提高 VLP 模型的数据效率,我们提出了 Text-aware Image Mixing(TiMix)方法,将基于混合的数据增强技术应用到 SMCL 模型中,能够在显著提升性能的同时,不会显著增加计算开销。我们从互信息(MI)的角度对 TiMix 进行了理论分析,表明混合的数据样本能够隐式地作为对比损失的正则化器。实验结果表明,与现有方法相比,即使减少了训练数据量并缩短了训练时间,TiMix 在下游任务上表现出了可比较的性能。该研究从实证和理论上证明了数据混合在数据高效和计算可行的 VLP 中的潜力,为 VLP 模型在实际场景中的广泛应用带来了好处。
Dec, 2023