从数据中心的视角提高信用卡交易时间序列的准确性和实用性

Jan, 2024

从数据中心的视角提高信用卡交易时间序列的准确性和实用性

Improve Fidelity and Utility of Synthetic Credit Card Transaction Time Series from Data-centric Perspective

Din-Yin Hsieh, Chi-Hua Wang, Guang Cheng

TL;DR本研究探讨了用于合成表格数据的生成模型训练，特别是在连续上下文中，如信用卡交易数据，它面临着重大挑战。本文解决了这些挑战，重点在于实现数据的高保真度和机器学习任务的最佳效用。我们引入了五个预处理方案来增强条件概率自回归模型 (CPAR) 的训练，展示了合成数据保真度和效用的渐进改进。在达到令人满意的保真度水平后，我们将注意力转向针对时间序列数据进行定制的欺诈检测模型的训练，评估合成数据的效用。我们的发现为金融领域的合成数据实践者提供了有价值的见解和实用指南，从真实数据过渡到合成数据用于训练，并阐明了合成信用卡交易时间序列的更广泛方法。

Abstract

Exploring generative model training for synthetic tabular data, specifically in sequential contexts such as →

generative model training synthetic tabular data sequential contexts credit card transaction data fraud detection models

发现论文，激发创造

走向基础采购模型：事务序列上的预训练生成自回归

通过生成预训练方法，获得金融交易的上下文嵌入表示，以提高卡片欺诈检测问题的价值检测率，并在不同领域中得到很好的迁移效果。

Jan, 2024

从真实数据到合成数据的转换：量化模型中的偏差

本研究旨在建立使用合成数据训练的模型在偏见和公平之间的权衡，并研究了合成数据生成技术的变体，包括差分隐私生成方案，通过实验表明，合成数据训练的模型存在不同程度的偏差影响，且生成的特征不相关的技术表现良好。该研究有助于数据科学实践者理解合成数据的使用中的偏见。

May, 2021

金融中的合成数据应用

合成数据在金融领域取得了巨大的进展，可以应用于各种数据模式，解决隐私、公平性和可解释性等问题。

Dec, 2023

推动零售数据科学：合成数据的综合评估

本文介绍了一种综合性框架，用于评估合成零售数据，注重保真度、实用性和隐私性。通过稳定性和普适性来衡量保真度，证明了合成数据在需求预测和动态定价等关键零售任务中的有效性，通过差分隐私确保数据具有出色的相似性和安全性，验证了该框架对于合成零售数据的可靠且可扩展的评估，是推进零售数据科学的重要工具。

Jun, 2024

可控信任权衡的审计及合成数据生成

本文提出一个审核框架，围绕偏见和歧视预防、与真实数据的一致性、效用、鲁棒性和隐私保护进行综合评估，并引入信任指数对多个合成数据集进行排名，通过审核和认证报告连接不同利益相关者。

Apr, 2023

合成表格数据生成的实用性

研究了使用合成表格数据进行数据共享、数据增强、类别平衡和数据摘要等四种情况下，机器学习性能的表现，然而，作者得出结论认为没有足够的证据证明合成数据对于机器学习训练有用。

Jun, 2023

基于表格金融数据的信用风险监控的序列深度学习

本文提出了一种新的信用风险评估方法，采用深度循环卷积神经网络并利用长期历史金融数据序列的新型信用卡交易抽样技术，优于现有的基于树模型的方法，能够实现显著的金融节约和更早的信用风险检测。

Dec, 2020

语言模型生成的合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大规模、多样化、高质量的数据集的可用性，而由于数据稀缺、隐私问题和高成本，获取这些数据集可能具有挑战性。合成数据作为一种有前景的解决方案出现，通过生成模仿真实世界模式的人工数据。本文提供了合成数据研究的概述，并讨论了其应用、挑战和未来方向。我们通过先前研究中的实证证据来展示其有效性，并强调确保其真实性、保真性和无偏性的重要性。我们强调了在使用合成数据构建更强大、包容性和可信赖的语言模型时的责任使用的需求。

Apr, 2024

用表格转换器对多元时间序列进行建模

本研究利用深度学习算法构建神经网络模型，对具有层级结构的表格时间序列进行表示学习，提供了一种类似于 BERT 的预训练模型以及类似于 GPT 的合成模型，并在信用卡诈骗检测和空气污染浓度预测两个领域应用验证了模型的效果。

Nov, 2020

关于有限时间序列生成问题的研究

本文利用一个带限制的优化框架，提出了一套生成方法，包括 “GuidedDiffTime”，用于生成合成的具有现实性的时间序列，相比现有方法更加高效，且无需重新训练，取得了显著的性能提升，并大幅降低了碳足迹。

Jul, 2023