May, 2024

合成表格数据验证:一种基于差异的方法

TL;DR通过使用发散估计来构建考虑真实数据和合成数据的联合分布的验证指标,本研究在多个领域中使用生成模型的不断增加突出了评估真实数据和合成数据之间相似性的健壮且标准化的验证指标的需求。通过使用概率分类器来近似数据集之间的密度比率,我们特别计算了两种发散:著名的 Kullback-Leibler (KL) 发散和 Jensen-Shannon (JS) 发散。