在本文中,我们提出了一种称为多重揉混(multi-mix)的简单而有效的扩展方法,它通过从样本对生成多个插值样本,可以比标准 mixup 更好地引导训练过程,从而在泛化性能、鲁棒性和校准度方面超过了各种 mixup 变体和非 mixup 基线。
Jun, 2024
本文尝试将最新的数据增强技术 Mixup 应用于自然语言处理领域,特别是在与 NLP 相关的 transformer-based 学习模型中。实验结果表明,Mixup 在预训练的语言模型中是一个独立于领域的数据增强技术,能够显著提高其性能。
Oct, 2020
本文提出了 Mixup 数据增强方法在句子分类中的应用策略,并在多个基准数据集上进行了实验验证,结果表明该技术是一种有效的、领域无关的数据增强方法,可使 CNN 和 LSTM 模型的预测准确性显著提高。
May, 2019
数据增强通过合成更多的训练样本提高深度学习模型的泛化能力。TransformMix 是一种自动化方法,通过应用学习到的变换和混合扩增策略来创建具有正确和重要信息的混合图像,从而提高性能。
Mar, 2024
本文研究数据增强方法 Mixup 的原理,从特征学习的角度解释了 Mixup 方法的优越性,并提出在早期训练阶段应用早停止技术以提高训练效果。
Mar, 2023
介绍了一种名为 AlignMix 的新型混合方法,通过在特征空间中几何对齐两个图像,从而使混合方法保留一个图像的几何特征和另一个图像的纹理,提高了表示学习效果。
Mar, 2021
本文研究了在机器学习分类器的训练中,通过合成数据样本来增强数据的效果。通过数据扭曲和特征空间中的合成过采样两种方法,我们对卷积神经网络,卷积支持向量机和卷积极限学习机分类器在标准的 MNIST 手写数字数据集上进行了实验评估。实验结果表明,在数据空间中合成数据可以更有效地提高性能和缓解过拟合问题。
Sep, 2016
提出了 Data Interpolating Prediction(DIP)框架,将样本混合过程与分类器的假设类封装在一起,从而使训练和测试样本受到平等对待,进而帮助降低 Rademacher 复杂度并减少泛化误差。DIP 在实证上表现比 Mixup 更优。
Jun, 2019
提出了一种名为 DoubleMix 的插值数据增强方法,通过合成的数据集和原始数据集在神经模型的隐藏空间中进行插值,以及学习隐藏空间中的 “偏移” 特征来提高模型的鲁棒性,在六个文本分类基准数据集上,该方法优于几种流行的文本增强技术,同时在低资源情况下也能保持性能的提升。
Sep, 2022
通过数据增强技术的线性和多线性插值方法,本文研究了应用于数字全玻片图像分类的多实例学习方法,研究结果表明方法的效果受数据集的影响很大,提出了进一步研究的相关方向。
Nov, 2023