使用异构聚类的公平过采样技术

May, 2023

Fair Oversampling Technique using Heterogeneous Clusters

Ryosuke Sonoda

TL;DR本研究提出一种公平的过采样技术，针对数据中存在的分类不平衡和组群不平衡问题，通过生成具有类混合特征或群组混合特征的合成数据来提高分类器的鲁棒性，并考虑原始群集分布和数据噪声来增强合成数据的有效性，实验结果表明该技术具有较好的公平性和效用性。

Abstract

class imbalance and group (e.g., race, gender, and age) imbalance are acknowledged as two reasons in data that hinder the trade-off between fairness and utility of →

fairness class imbalance group imbalance oversampling technique machine learning

发现论文，激发创造

不均衡数据的聚类和学习

本文提出了一种基于聚类的过采样方法（Clustering Based Oversampling），该方法利用少数派样本与其聚类中心点之间的距离来生成新的少数派样本，它在不影响多数派学习的基础上，利用少数派样本的分布结构改善了在类别不平衡数据上的学习，并通过采取措施以防止异常值产生和过度拟合。深度神经网络实验结果表明，与其他合成数据采样技术相比，该方法在不同数据集上的评估指标上表现更好。

Nov, 2018

类别不平衡学习中的去除过采样方法：一次批判性综述

本文分析了大量过采样方法，并提出了一种新的基于隐藏部分多数类样本进行比较的过采样评估系统。我们的实验证明，所有研究过的过采样方法生成的少数类样本最有可能是多数类。因此，我们认为当前形式和方法的过采样不可靠，并在真实世界应用中应避免使用。

Feb, 2022

基于 K-Means 和 SMOTE 的不平衡学习过采样

本文提出了一种基于 k-means 聚类和 SMOTE 过采样的简单有效方法，可以避免产生噪音并有效地解决类内和类间不平衡的问题，在 71 个数据集上的实验结果表明，使用所提出的方法进行训练数据过采样可以提高分类结果，并且 k-means SMOTE 方法始终优于其他流行的过采样方法。

Nov, 2017

应对非均衡分类中的多元少数群体

通过迭代数据混合的马尔科夫决策过程（MDP）来解决不平衡数据集的问题，并通过使用数据扩充策略训练一个数据扩充策略并设计一种奖励信号，探索分类器的不确定性并鼓励性能提升，不考虑分类器的收敛，从而展示了解决具有不同类别少数样本的不平衡数据集的潜力和前景。

Aug, 2023

一种基于混合采样的不平衡学习框架

研究提出了一种新型的样本采样算法，“SMOTE-RUS-NC”，它可以通过结合三种不同的采样技术来实现数据的平衡处理，进而提高分类算法的性能，特别是能够在高度不平衡的数据集中表现出卓越的效果。

Aug, 2022

在核空间中基于边缘化少数群体的 SMOTE 解决不平衡数据中的分类歧视

基于决策边界和样本接近性关系的一种新的分类过采样方法，通过关注关键样本与决策超平面之间的距离以及周围样本的密度，提供了一种适应性过采样策略，在金融欺诈数据集上得出了可以提高少数类别分类准确性的有效和稳健的解决方案。

Feb, 2024

SMOTE: 合成少数类过采样技术

本文介绍了一种从不平衡数据集中构建分类器的方法，通过在少数类过抽样和多数类欠抽样的组合使用，可以在 ROC 空间中实现比 Ripper 方法和朴素贝叶斯更好的分类器性能。

Jun, 2011

关于数据集属性选择适当的重采样策略以解决类别不平衡问题

本文通过比较分析 40 个来自不同应用领域的数据集，研究了不平衡数据分类的各种因素对过采样和欠采样技术的有效性的影响，提出了基于性能度量的自动最优采样策略选择模型，可以在不同领域中选择最合适的方法。

Dec, 2021

恢复平衡：基于原则的数据欠采样 / 过采样用于最佳分类

在这项研究中，我们确定了线性分类器（支持向量机）在高维度情况下的泛化曲线的确切分析表达式，并对于数据的类别不平衡性、数据的第一和第二时刻以及所考虑的性能指标的影响给出了锐利的预测。我们表明，涉及数据的欠采样和过采样的混合策略会提高性能。通过数值实验，我们展示了我们理论预测在真实数据集、更深层次的架构和基于无监督概率模型的采样策略上的相关性。

May, 2024

高效的混合过采样和智能欠采样用于不平衡大数据分类

引入了一种名为 SMOTENN 的新型重采样方法，它通过使用 MapReduce 框架将智能欠采样和过采样结合在一起，从而解决了不平衡分类问题。实验结果表明，该方法在小型和中型数据集上优于替代重采样技术，并在大型数据集上达到了良好的效果且运行时间缩短。

Oct, 2023