TransformMix: 从数据中学习变换和混合策略
本文尝试将最新的数据增强技术 Mixup 应用于自然语言处理领域,特别是在与 NLP 相关的 transformer-based 学习模型中。实验结果表明,Mixup 在预训练的语言模型中是一个独立于领域的数据增强技术,能够显著提高其性能。
Oct, 2020
通过研究发现,基于图像显著性信息的数据混合并不一定对增强性能有太大帮助,采用更有效、更易于实现的 ResizeMix 方法进行数据混合比 CutMix 和基于显著性信息的方法更具优势。
Dec, 2020
在本文中,我们提出了一种称为多重揉混(multi-mix)的简单而有效的扩展方法,它通过从样本对生成多个插值样本,可以比标准 mixup 更好地引导训练过程,从而在泛化性能、鲁棒性和校准度方面超过了各种 mixup 变体和非 mixup 基线。
Jun, 2024
通过对数据进行增强,尤其是在训练数据有限的情况下,数据增强技术可以显著提高计算机视觉模型的泛化能力。然而,由于不同 ially private learning 方法固有的假设,即每个训练图像对学习模型的贡献是有限的,这些技术与不同 ially private 学习方法在基本上不兼容。本文研究了为什么多样本数据增强技术(如 mixup)的朴素应用无法取得良好的性能,并提出了两种新型的数据增强技术,专门针对不同 ially private 学习的约束条件。我们的第一种技术 DP-Mix_Self 通过在自我增强的数据上执行 mixup,在一系列数据集和设置中实现了具有 SoTA 分类性能。我们的第二种技术 DP-Mix_Diff 通过将来自预训练扩散模型的合成数据纳入 mixup 过程中,进一步提高了性能。我们在此 URL 中开源了代码。
Nov, 2023
该论文提出了一种自动混合框架 ——AutoMix,它将混合分类分为两个子任务,并使用相应的子网络在双层优化框架中解决。AutoMix 在 9 个图像基准上的广泛实验表明,在各种分类场景和下游任务中,其优越性超过了现有技术。
Mar, 2021
本文提出了一种名为 TokenMix 的数据增强技术,它在令牌级别上混合两个图像,通过将混合区域分区成多个独立的部分来实现,其适用于更好地训练视觉变换器,同时根据预训练的 teacher 模型的内容基础神经激活映射分配目标分数,增强了其稳健性和性能。
Jul, 2022
本研究系统评估了混合型数据增强方法在生理时间序列分类中的性能,并发现混合型增强方法能够显著改善数据集的性能,而且不需要专业知识或大量参数调整。此外,还总结了混合型增强方法的独特属性,并强调在生理时间序列数据中使用混合型增强方法的潜在益处。
Sep, 2023
通过引入一种名为 MiAMix 的新的 mixup 方法,将图像增强与 mixup 框架相结合,同时利用多种多样的混合方法,并通过随机选择混合掩码增强方法来改进混合方法,该研究表明 MiAMix 在提高性能的同时降低了计算负载。
Aug, 2023
提出基于全局聚类关系的新型数据扩增方法 ——Global Mixup,其中通过将先前的一阶段扩增过程分解为两阶段,从而将生成虚拟样本的过程与标记过程分离,并根据生成样本的全局关系计算子集对生成样本的标签重新标记,从而在更大的采样空间中生成更可靠的虚拟样本。在 CNN、LSTM 和 BERT 上的五项任务的广泛实验表明,Global Mixup 明显优于现有最新技术基线。
Jun, 2022
通过交替优化分类器和混合样本生成器,我们提出了一种对抗性自动混合增强方法 AdAutomixup,用于生成具有挑战性的样本以训练强大的图像分类器,并通过引入指数移动平均教师和余弦相似度来防止图像内在意义的崩溃。大量实验证明,我们的方法在各种分类场景中优于现有技术水平。
Dec, 2023