卷积神经网络中类别不平衡问题的系统研究
现实世界的数据集通常存在严重的类别不平衡问题,通过调整标准深度学习流程的现有组件,如批次大小、数据增强、优化器和标签平滑等,可以实现无需专门的类别不平衡方法即可达到最先进的性能,并提供了关于训练类别不平衡的关键建议和考虑因素,以及关于为什么类别不平衡方法成功或失败的理解。
Dec, 2023
本文提出了 Deep Over-sampling(DOS)方法,它通过显式的、受监督的表示学习扩展了合成过采样方法,以利用卷积神经网络获取的深度特征空间,并通过 CNN 的训练和更新目标的迭代过程,使嵌入之间的类内方差较小,从而提高了深度表示的判别力。实验证明,DOS 框架不仅能够更好地解决类别不平衡问题,而且在标准平衡环境下还能提高 CNN 的性能。
Apr, 2017
本文分析了大量过采样方法,并提出了一种新的基于隐藏部分多数类样本进行比较的过采样评估系统。我们的实验证明,所有研究过的过采样方法生成的少数类样本最有可能是多数类。因此,我们认为当前形式和方法的过采样不可靠,并在真实世界应用中应避免使用。
Feb, 2022
在这项研究中,我们确定了线性分类器(支持向量机)在高维度情况下的泛化曲线的确切分析表达式,并对于数据的类别不平衡性、数据的第一和第二时刻以及所考虑的性能指标的影响给出了锐利的预测。我们表明,涉及数据的欠采样和过采样的混合策略会提高性能。通过数值实验,我们展示了我们理论预测在真实数据集、更深层次的架构和基于无监督概率模型的采样策略上的相关性。
May, 2024
本文研究深度学习中的过拟合现象,并通过分析来自训练数据集和测试数据集的逻辑回归分布之间的变化来解释其在神经网络上的影响。作者针对深度学习中的图像分割任务,提出了针对少量数据样本的正则化模型,模仿少量数据情况下在测试集中出现的数据分布,用于减轻这种分布对模型性能的影响,实验结果证明该方法显著提高了模型在二进制分割图像任务中的性能。
Jul, 2019
针对自然语言处理中的类别不平衡问题,本篇文章综述了基于深度学习的自然语言处理中的类别不平衡现状及其解决方法。通过对采样、数据增强、损失函数、分步学习和模型设计等方法的综述,提出了在多标签情况下处理类别不平衡问题的挑战和必要性,并提出系统化标准和报告的建议。
Oct, 2022
本文提出了一种基于三方博弈的凸生成器算法,通过在深度学习系统中处理类别不平衡,在类别边界附近生成人工样本,从而优化分类器的性能。对多个类别不平衡的图像数据集进行的实验证实了算法的有效性。
Mar, 2019
本文通过比较分析 40 个来自不同应用领域的数据集,研究了不平衡数据分类的各种因素对过采样和欠采样技术的有效性的影响,提出了基于性能度量的自动最优采样策略选择模型,可以在不同领域中选择最合适的方法。
Dec, 2021
本文提出了一个新的学习策略,来有效地解决在使用类不平衡数据时神经网络容易出现欠拟合和过拟合问题的困扰,该策略在小批量中混合了主类数据和其它数据的特征,旨在削弱主类数据的特征以防止神经网络优先拟合主类数据的情况,从而实现了类之间的训练过程平衡,并得到了在难度较大的数据集中的最新成果。
Apr, 2021