数据挖掘中的类别不平衡问题综述
通过对 258 篇论文的综合分析,本文着重从技术和应用的角度对不平衡学习进行了深入研究,总结了各种方法在不同领域解决不平衡数据问题的实践,旨在为学术和工业界的研究人员提供一个全面的指南,以利用大规模不平衡数据进行机器学习。
Oct, 2023
分类问题中存在类别不平衡的情况,而数据又是为了提高准确性而设计的,类别不平衡可能导致几个类别的错分代价更高,本文综述了不平衡数据分类领域的研究,讨论了数据层方法、算法层方法和混合方法等三个主要方面,并总结分析了现有方法的问题、算法思想、优势和劣势,另外还讨论了类别不平衡数据分类的挑战与解决策略,方便研究人员根据实际需求选择适用的方法。
Oct, 2023
这篇研究提出了不仅仅是平衡比例问题,还存在方差、距离、邻域和质量不均衡的种类,这些不均衡对学习的公平性产生了显着影响,并提出了一种新的基于对数摇动的失衡学习损失方法来解决比例、方差和距离不平衡问题。实验结果表明了该方法的有效性。
May, 2023
本研究系统地研究了类别不平衡对卷积神经网络分类性能的影响,并比较了几种解决该问题的常用方法。在使用三个基准数据集进行实验的过程中,研究者发现类别不平衡对分类性能有不利影响,而通过过采样的方法可以提高分类性能。同时,该研究还发现阈值补偿在一定场景下也能够提高分类性能。
Oct, 2017
本文通过比较分析 40 个来自不同应用领域的数据集,研究了不平衡数据分类的各种因素对过采样和欠采样技术的有效性的影响,提出了基于性能度量的自动最优采样策略选择模型,可以在不同领域中选择最合适的方法。
Dec, 2021
本文分析了大量过采样方法,并提出了一种新的基于隐藏部分多数类样本进行比较的过采样评估系统。我们的实验证明,所有研究过的过采样方法生成的少数类样本最有可能是多数类。因此,我们认为当前形式和方法的过采样不可靠,并在真实世界应用中应避免使用。
Feb, 2022
针对自然语言处理中的类别不平衡问题,本篇文章综述了基于深度学习的自然语言处理中的类别不平衡现状及其解决方法。通过对采样、数据增强、损失函数、分步学习和模型设计等方法的综述,提出了在多标签情况下处理类别不平衡问题的挑战和必要性,并提出系统化标准和报告的建议。
Oct, 2022
本文系统综述了物体检测中的不平衡问题,并提出了以问题为基础的分类法,并对每个问题进行深入讨论,对文献中的解决方案提出了统一而批判性的观点。此外,我们也指出了现有不平衡问题以及未被讨论的不平衡问题的主要开放问题,并提供了一个 Web 页面,以我们的以问题为基础的分类法来列出解决不平衡问题的论文,供研究人员跟踪新的研究。
Aug, 2019