不平衡数据集学习的广义过采样及相关理论

Aug, 2023

不平衡数据集学习的广义过采样及相关理论

Generalized Oversampling for Learning from Imbalanced datasets and Associated Theory

Samuel Stocksieker, Denys Pommeret, Arthur Charpentier

TL;DR通过数据增强算法 GOLIATH，在不平衡回归问题中应用了生成器过程和野外自助法重采样技术，实现了显著改进。

Abstract

In supervised learning, it is quite frequent to be confronted with real imbalanced datasets. This situation leads to a learning difficulty for standard algorithms. Research and solutions in imbalanced learning have mainly focused on classification tasks. Despite its importance, very fe

imbalanced datasets imbalanced regression data augmentation goliath algorithm wild-bootstrap resampling

发现论文，激发创造

合成过采样：理论和使用 LLMs 解决数据不平衡的实践方法

不平衡数据和虚假关联是机器学习和数据科学中常见的挑战。本文介绍了 OPAL（使用人工生成的 LLM 数据进行过采样），一种系统的过采样方法，利用大型语言模型（LLMs）生成高质量的少数类别合成数据，与深度生成模型进行预测任务的合成数据生成方法有所不同，着重解决不平衡数据和虚假关联问题，并提出了新的理论来严格表征使用合成数据的益处，并展示了变压器在生成标签和协变量的高质量合成数据方面的能力。此外，我们进行了大量的数值实验，以证明我们提出的方法相较于一些代表性的替代方案更加有效。

Jun, 2024

基于 K-Means 和 SMOTE 的不平衡学习过采样

本文提出了一种基于 k-means 聚类和 SMOTE 过采样的简单有效方法，可以避免产生噪音并有效地解决类内和类间不平衡的问题，在 71 个数据集上的实验结果表明，使用所提出的方法进行训练数据过采样可以提高分类结果，并且 k-means SMOTE 方法始终优于其他流行的过采样方法。

Nov, 2017

BSGAN: 一种用于不平衡模式识别的新型过采样技术

本文提出了一种结合 Borderline-Synthetic Minority Oversampling Techniques 和 Generative Adversarial Network 的混合过采样技术 (BSGAN)，并在四个高度不平衡的数据集上进行了测试，结果表明 BSGAN 在过采样效应后创建了一个更多元化的数据集，其表现优于存在的边界 SMOTE 和基于 GAN 的过采样技术。

May, 2023

基于条件 Wasserstein GAN 的表格数据过采样技术在不平衡学习中的应用

本文提出基于条件 Wasserstein GAN 的过采样方法，可对包含数字和分类变量的表格数据集进行有效建模，并通过辅助分类器损失函数特别关注下游分类任务。实证结果表明 GAN 基于过采样的竞争力。

Aug, 2020

高效的混合过采样和智能欠采样用于不平衡大数据分类

引入了一种名为 SMOTENN 的新型重采样方法，它通过使用 MapReduce 框架将智能欠采样和过采样结合在一起，从而解决了不平衡分类问题。实验结果表明，该方法在小型和中型数据集上优于替代重采样技术，并在大型数据集上达到了良好的效果且运行时间缩短。

Oct, 2023

不均衡数据的聚类和学习

本文提出了一种基于聚类的过采样方法（Clustering Based Oversampling），该方法利用少数派样本与其聚类中心点之间的距离来生成新的少数派样本，它在不影响多数派学习的基础上，利用少数派样本的分布结构改善了在类别不平衡数据上的学习，并通过采取措施以防止异常值产生和过度拟合。深度神经网络实验结果表明，与其他合成数据采样技术相比，该方法在不同数据集上的评估指标上表现更好。

Nov, 2018

恢复平衡：基于原则的数据欠采样 / 过采样用于最佳分类

在这项研究中，我们确定了线性分类器（支持向量机）在高维度情况下的泛化曲线的确切分析表达式，并对于数据的类别不平衡性、数据的第一和第二时刻以及所考虑的性能指标的影响给出了锐利的预测。我们表明，涉及数据的欠采样和过采样的混合策略会提高性能。通过数值实验，我们展示了我们理论预测在真实数据集、更深层次的架构和基于无监督概率模型的采样策略上的相关性。

May, 2024

时间序列数据增强的不平衡学习问题

这篇研究提出了一种生成单变量时间序列合成样本的新方法，通过使用过采样技术创建合成时间序列观测来改善预测模型的准确性，并在实验中证明了该方法优于全局模型和本地模型，提供了更好的权衡。

Apr, 2024

评估 GAN 生成的合成表格数据在类别平衡和低资源环境下的实用性

本研究旨在解决分类任务中不平衡数据的问题，并评估 SMOTE、ADASYN 和 GAN 技术在生成合成数据以解决类别不平衡和提高分类模型在低资源环境下的性能方面的适用性。

Jun, 2023

一种处理不平衡数据的生成式深度学习方法用于车祸严重程度建模

该研究提出了一种基于条件数据生成对抗网络 (CTGAN-RU) 的交通事故数据生成方法，通过数据平衡和合成数据生成，用于交通事故严重性建模，结果表明使用 CTGAN-RU 生成的合成数据在交通事故严重性建模中优于使用原始数据或其他采样方法生成的合成数据。

Apr, 2024