该研究使用预先训练的语言模型和选择最有信息量和多样性的生成数据的方法,比基于后翻译的现有数据增强方法表现更好,并在低资源环境下获得了更准确和稳健的学习结果。
Apr, 2020
本研究提出了一种新的基于属性组编辑方法的少样本图像生成技术,通过对属性进行编辑,该方法可以生成更为逼真和多样的图像,并具有可解释的全局属性方向性。
Mar, 2022
引入了 CGA,一种有条件的 VAE 架构,可用于控制、生成和增强文本,通过对抗学习与上下文感知损失和循环词随机删减程序相结合,能够控制多种语义和句法属性生成自然的英文句子。通过自动和人工评估,证明所生成句子的高质量、多样性和属性控制,用于数据增强的下游 NLP 任务中,相比于强基线和同等数量的真实数据,使用 CGA 模型生成的句子有显著提高,分类性能也有所提升。
本文提出了一种利用人工注释属性的属性引导注意力模块 (AGAM),以实现更具有区分性的特征学习,从而改善仅使用视觉信息的查询集的特征选择,达到了不同数据集和设置下的最先进性能。
Sep, 2020
本研究提出了一种基于语言模型的数据增强方法,可以生成高质量的合成数据以提高机器学习性能,在监督和半监督学习环境下,实验结果表明,在给定较少的训练数据的情况下,该方法可以始终优于基准方法。
Nov, 2020
提出了一种基于贝叶斯公式,利用广义蒙特卡洛期望最大化算法和生成对抗网络的方法,能更好地生成新的标注训练样本,并在 MNIST,CIFAR-10 和 CIFAR-100 的数据集中取得了优于现有数据增强方法和 GAN 模型的分类结果。
Oct, 2017
本文提出了一种数据增强策略 Attribute Mix,通过属性级别的数据增强方法,利用自动属性挖掘技术扩展细粒度样本,从而显著提高图像识别性能。同时基于属性的共享特点,在广义域的图像上训练可扩展属性级别的标签。实验证明了该方法的有效性。
本文提出了一种使用生成模型合成多样性特征来增强零样本学习的新框架,以解决现有方法使用的单一属 性信息无法完全表达样本丰富特征的问题。在四个基准数据集上的实验证明,本方法在性能方面显着优于现有工作。
Dec, 2021
通过将数据增强作为监督领域泛化问题,并利用对比语义对齐损失方法,提高数据增强的鲁棒性和训练效率。实验证明,该方法改善了典型数据增强的鲁棒性和训练效率。
Oct, 2023
本文提出了一种用于数据增强的生成对抗网络 (DAGAN) 模型,其可帮助神经网络在数据不足的情况下提高泛化能力,实验结果显示在 Omniglot、EMNIST 以及 VGG-Face 数据集中,使用 DAGAN 后精度显著提高,我们同时还使用 DAGAN 增强了匹配网络 (Matching Networks) 的性能。
Nov, 2017