融合条件变分自编码器的 SMOTE 改进方法用于数据自适应噪声过滤

May, 2024

融合条件变分自编码器的 SMOTE 改进方法用于数据自适应噪声过滤

Improving SMOTE via Fusing Conditional VAE for Data-adaptive Noise Filtering

Sungchul Hong, Seunghwan An, Jong-June Jeon

TL;DR通过使用 Variational Autoencoders (VAE) 来增强 SMOTE 算法，近期对生成神经网络模型的研究扩展了数据增广方法。在研究中发现，相对于传统模型的 SMOTE 算法，基于现代生成模型的增广方法无法在类别不平衡数据上取得显著的性能。对于这个生成模型在不均衡分类中的问题，我们通过引入一个框架来同时量化低维潜变量空间中数据点的密度，并结合类别标签和分类难度的信息。我们系统地排除了可能降低增广效果的数据点，并直接在数据空间中进行相邻样本的增广。对几个类别不平衡的数据集进行的实证研究表明，这一简单的过程创新性地提高了传统的 SMOTE 算法在深度学习模型上的效果。因此，我们得出结论，对于相对较少数量的数据点而言，对少数类数据的选择和数据空间内的插值是解决类别不平衡分类问题有益的。

Abstract

Recent advances in a generative neural network model extend the development of data augmentation methods. However, the augmentation methods based on the modern generative models fail to achieve notable performanc

generative neural network model data augmentation methods class imbalance data smote algorithm variational autoencoders (vae)

发现论文，激发创造

VaB-AL: 结合变分贝叶斯的类别不平衡和困难因素用于主动学习

该研究通过结合生成模型和变分自编码器 (Variational Auto Encoder) 来考虑分类样本的不均衡分布，利用贝叶斯思想中的三个关键因素，显著提高已有方法在有限数据预算下的性能。

Mar, 2020

SeNM-VAE：具有层级变分自编码器的半监督噪声建模

该研究提出了 SeNM-VAE，一种半监督噪声建模方法，利用配对和非配对数据集生成逼真的退化数据。通过特殊设计的图形模型对退化和清晰图像的条件分布进行建模，在变分推断框架下开发了处理配对和非配对数据的客观函数。我们将该方法应用于真实世界的图像去噪和超分辨率任务中，其合成的退化图像质量优于其他非配对和配对噪声建模方法。此外，即使在有限的配对数据的情况下，我们的方法在下游图像恢复任务中也表现出色。随着更多的配对数据，我们的方法在 SIDD 数据集上实现了最佳性能。

Mar, 2024

增强社交网络广告预测的数据增强比较研究

通过生成模型的数据增强方法，本研究在社交网络广告领域解决了受限数据集及潜在偏差的问题，提升了模型性能，并提供了多个数据增强技术的相对表现对比，以指导从业者选择适合的技术来增强模型性能。

Apr, 2024

利用变分自编码器处理不完整的异质数据

本文提出了 HI-VAE—— 一种能够处理必不可少的异构性和不完整数据的通用 VAE 设计框架，包括实数，正实数，区间，分类，序数和计数数据的似然模型，并展示了在监督任务中具有竞争性的预测性能。

Jul, 2018

使用 trVAE 的无配对数据条件外样本生成

本研究通过使用最大平均离差（MMD）来匹配不同条件下的生成模型的分布，从而对条件变分自编码器（CVAE）进行改进，提出了 Transformer VAE（trVAE）的架构，并在高维图像和表格数据上展示了比现有方法更高的鲁棒性和准确性。

Oct, 2019

使用混合变分族集合提升不完整数据的变分自动编码器估计

研究了在数据不完整的情况下对变分自动编码器的估计任务，发现缺失数据增加了模型后验分布对潜变量的复杂性，从而影响了模型的拟合。通过引入两种策略（有限变分混合和基于插补的变分混合分布），解决了增加的后验复杂性问题。通过全面评估这些方法，结果表明变分混合对不完整数据的变分自动编码器估计准确性具有提升效果。

Mar, 2024

从 SMOTE 到 Mixup 的深度不平衡分类

通过增强传统的 SMOTE 方法并与 Mixup 结合，提出了一种统一的深度学习数据增强框架，实验结果表明该方法在深度不平衡分类任务上具有最先进的性能，并且在极度不平衡数据上也达到了优异的效果。

Aug, 2023

缺失数据下的 VAEs

开发了一种新颖的潜在变量模型，通过生成缺失数据的损坏过程对处理缺失数据集进行了模糊处理，并推导出相应的易于实现、可处理可随机缺失和不随机缺失数据、适用于高维输入、VAE 编码器和解码器原则性访问指标变量以确定数据元素是否缺失的可跟踪证据下限 (ELBO)。在 MNIST 和 SVHN 数据集上，相比现有方法，证明了观测数据的边际对数似然和更好的缺失数据插值提高。

Jun, 2020

针对具有鲁棒性的半监督学习的对抗变分嵌入

我们提出了一种名为 AVAE 的新型对抗生成嵌入框架，该框架将 GAN 的高质量生成模型和 VAE 的后验分布学习器的优势相结合，用于半监督学习，并针对已有的问题进行改进。实践结果表明，我们的方法在半监督分类方面的表现优于现有的最先进模型。

May, 2019

使用 LSTM 变分自编码器框架通过基于主题的培训填补知识追踪数据

采用基于主题的训练方法和深度生成模型建立 LSTM-VAE 和 LSTM LVAE 模型来生成缺失数据，并将使用生成数据训练的模型与原始数据训练的模型进行比较，结果表明使用 LSTM-VAE 和 LSTM-LVAE 生成的数据能够提高原始模型的性能约 50%。

Feb, 2023