针对合成数据的下游任务导向生成模型选择 —— 用于欺诈检测模型的训练

Jan, 2024

针对合成数据的下游任务导向生成模型选择 —— 用于欺诈检测模型的训练

Downstream Task-Oriented Generative Model Selections on Synthetic Data Training for Fraud Detection Models

Yinan Cheng, Chi-Hua Wang, Vamsi K. Potluru, Tucker Balch, Guang Cheng

TL;DR在选择适合特定的机器学习模型类和性能度量组合的合成训练任务的最佳生成模型的过程中，我们的研究发现，当模型解释性要求苛刻时，基于贝叶斯网络的生成模型优于基于神经网络的生成模型。我们的结果为有意将训练数据从真实数据集替换为合成数据集的机器学习从业者提供了实际指导，并为更一般的下游任务导向的生成模型选择问题提供了启示。

Abstract

Devising procedures for downstream task-oriented generative model selections is an unresolved problem of practical importance. Existing studies focused on the utility of a single family of generative models. They provided limited insights on how →

downstream task-oriented generative model selections synthetic data practitioners fraud detection models model interpretability model performance constraints

发现论文，激发创造

一种用于表格数据的有监督生成优化方法

合成数据生成已成为金融机构的重要课题，本研究提出了一种新的合成数据生成框架，将监督组件与元学习方法结合，为特定下游任务学习最佳混合分布的已有合成分布。

Sep, 2023

合成数据，真实误差：如何（不）发布和使用合成数据

本文介绍了通过生成模型生成合成数据，并探讨了生成模型对下游机器学习任务的影响。提出了 Deep Generative Ensemble (DGE) 框架，该框架可以学习生成过程模型参数的后验分布，从而在模型训练、评估和不确定性量化方面取得了显著的改进，特别对于稀有类别和原始数据的低密度区域。

May, 2023

合成数据生成的全面探索：一项调查

近年来，机器学习在不同领域得到了广泛应用，但由于数据获取昂贵和隐私法规的限制，训练数据的稀缺性成为进展的阻碍。合成数据作为一种解决方案出现，但大量发布的模型和有限的概述文献给决策带来了挑战。本文调查了过去十年中 417 个合成数据生成模型，提供了模型类型、功能和改进的全面概述。我们发现模型性能和复杂性不断提高，以神经网络为基础的方法主导，除隐私保护数据生成外。计算机视觉占主导地位，GAN 是主要生成模型，而扩散模型、Transformer 和循环神经网络则在竞争。从我们的性能评估中，我们发现常见度量标准和数据集的稀缺性使得比较具有挑战性。此外，文献中忽略了培训和计算成本，需要在未来的研究中予以关注。本文为合成数据生成模型的选择提供了指南，并确定了未来探索的关键领域。

Jan, 2024

利用 GANs 进行欺诈检测：使用合成交易数据进行模型训练

使用生成对抗网络（GANs）算法设计和实现了一个基于深度学习技术的伪造人脸验证代码和欺诈检测系统，以增强交易过程的安全性。

Feb, 2024

DSF-GAN: 下游反馈生成对抗网络

使用一种名为 DSF-GAN 的新型架构，通过从下游预测模型获得反馈信息来增强生成器的损失函数，从而提高合成样本的效用。与没有反馈的相同类型的 GAN 生成的合成样本相比，DSF-GAN 生成的合成样本在模型性能上表现出更好的效果。

Mar, 2024

使用 GAN 生成人造人口数据进行信用卡欺诈检测

本研究使用深度学习生成对抗网络（GAN）DGGAN 生成复杂的人口统计学数据，以提高合成数据的特征复杂性，从而改善卡片欺诈检测表现。

Jun, 2023

使用合成数据训练神经网络是基于模型的推理

本文讨论了使用合成训练数据来优化神经网络参数与近似贝叶斯模型的相关性，并展示了其在验证码破解等任务中的应用和成功实验结果，并在此基础上探讨了使用合成数据训练神经网络需要考虑的因素和如何确保模型的泛化能力。

Mar, 2017

走向基础采购模型：事务序列上的预训练生成自回归

通过生成预训练方法，获得金融交易的上下文嵌入表示，以提高卡片欺诈检测问题的价值检测率，并在不同领域中得到很好的迁移效果。

Jan, 2024

稳定扩散数据集生成用于下游分类任务

在最近的生成人工智能的进展中，我们利用稳定扩散 2.0 模型来生成合成数据集，通过迁移学习、微调和生成参数优化技术改善了数据集在下游分类任务中的效用，我们提出了一种条件类别版本的模型，利用类编码器和关键生成参数的优化。使用我们的方法，在三分之一的情况下，合成数据集产生的模型胜过在真实数据集上训练的模型。

May, 2024

生成式深度模型对新颖性检测是否真正更好？

本文比较了一系列深度生成模型和经典的异常检测方法的性能，得出深度生成模型的性能受其超参数的选择过程的影响，并指出当选择异常样本数量减少时，深度生成模型的性能下降并不能系统性地优于 kNN。

Jul, 2018