重采样对不平衡分类准确性的影响

Jul, 2017

重采样对不平衡分类准确性的影响

Influence of Resampling on Accuracy of Imbalanced Classification

Evgeny Burnaev, Pavel Erofeev, Artem Papanov

TL;DR研究了不平衡数据集下使用不同的重采样方法对分类准确性的影响，并比较了重采样方法的优缺点。

Abstract

In many real-world binary classification tasks (e.g. detection of certain objects from images), an available dataset is imbalanced, i.e., it has much less representatives of a one class (a minor class), than of a

imbalanced dataset binary classification resampling classification accuracy minor class

发现论文，激发创造

不平衡数据集分类性能提升的重采样技术综述

研究分类问题中遇到的数据不平衡的情况，讨论了文献中提出的一些重新采样技术，并研究了它们对分类性能的影响。

Aug, 2016

关于数据集属性选择适当的重采样策略以解决类别不平衡问题

本文通过比较分析 40 个来自不同应用领域的数据集，研究了不平衡数据分类的各种因素对过采样和欠采样技术的有效性的影响，提出了基于性能度量的自动最优采样策略选择模型，可以在不同领域中选择最合适的方法。

Dec, 2021

类别不平衡学习中的去除过采样方法：一次批判性综述

本文分析了大量过采样方法，并提出了一种新的基于隐藏部分多数类样本进行比较的过采样评估系统。我们的实验证明，所有研究过的过采样方法生成的少数类样本最有可能是多数类。因此，我们认为当前形式和方法的过采样不可靠，并在真实世界应用中应避免使用。

Feb, 2022

不均衡数据的聚类和学习

本文提出了一种基于聚类的过采样方法（Clustering Based Oversampling），该方法利用少数派样本与其聚类中心点之间的距离来生成新的少数派样本，它在不影响多数派学习的基础上，利用少数派样本的分布结构改善了在类别不平衡数据上的学习，并通过采取措施以防止异常值产生和过度拟合。深度神经网络实验结果表明，与其他合成数据采样技术相比，该方法在不同数据集上的评估指标上表现更好。

Nov, 2018

不均衡分类中的重采样和滤波权衡

在处理高度不平衡的标记分类任务中，选择训练数据的方式会对模型性能产生效果和效率方面上的权衡。在使用英语和阿拉伯语文本序列标记实验中，不同的训练数据选择方法带来了不同的效果和效率权衡；在对高度不平衡情况下的模型性能测试中，使用基于一次检索模型的测试数据过滤和训练数据选择同样重要。而变化的幅度取决于所研究的现象基础率。

Aug, 2022

数据挖掘中的类别不平衡问题综述

本文系统地研究了数据分类中的类别不平衡问题，探讨了算法、数据预处理以及特征选择等方法的优劣，为类别不平衡问题的后续研究提供了正确方向。

May, 2013

恢复平衡：基于原则的数据欠采样 / 过采样用于最佳分类

在这项研究中，我们确定了线性分类器（支持向量机）在高维度情况下的泛化曲线的确切分析表达式，并对于数据的类别不平衡性、数据的第一和第二时刻以及所考虑的性能指标的影响给出了锐利的预测。我们表明，涉及数据的欠采样和过采样的混合策略会提高性能。通过数值实验，我们展示了我们理论预测在真实数据集、更深层次的架构和基于无监督概率模型的采样策略上的相关性。

May, 2024

卷积神经网络中类别不平衡问题的系统研究

本研究系统地研究了类别不平衡对卷积神经网络分类性能的影响，并比较了几种解决该问题的常用方法。在使用三个基准数据集进行实验的过程中，研究者发现类别不平衡对分类性能有不利影响，而通过过采样的方法可以提高分类性能。同时，该研究还发现阈值补偿在一定场景下也能够提高分类性能。

Oct, 2017

一种基于混合采样的不平衡学习框架

研究提出了一种新型的样本采样算法，“SMOTE-RUS-NC”，它可以通过结合三种不同的采样技术来实现数据的平衡处理，进而提高分类算法的性能，特别是能够在高度不平衡的数据集中表现出卓越的效果。

Aug, 2022

高效的混合过采样和智能欠采样用于不平衡大数据分类

引入了一种名为 SMOTENN 的新型重采样方法，它通过使用 MapReduce 框架将智能欠采样和过采样结合在一起，从而解决了不平衡分类问题。实验结果表明，该方法在小型和中型数据集上优于替代重采样技术，并在大型数据集上达到了良好的效果且运行时间缩短。

Oct, 2023