Jan, 2024

从数据中心的视角提高信用卡交易时间序列的准确性和实用性

TL;DR本研究探讨了用于合成表格数据的生成模型训练,特别是在连续上下文中,如信用卡交易数据,它面临着重大挑战。本文解决了这些挑战,重点在于实现数据的高保真度和机器学习任务的最佳效用。我们引入了五个预处理方案来增强条件概率自回归模型 (CPAR) 的训练,展示了合成数据保真度和效用的渐进改进。在达到令人满意的保真度水平后,我们将注意力转向针对时间序列数据进行定制的欺诈检测模型的训练,评估合成数据的效用。我们的发现为金融领域的合成数据实践者提供了有价值的见解和实用指南,从真实数据过渡到合成数据用于训练,并阐明了合成信用卡交易时间序列的更广泛方法。