合成数据生成模型的评估框架

Apr, 2024

An evaluation framework for synthetic data generation models

Ioannis E. Livieris, Nikos Alimpertis, George Domalis, Dimitris Tsakalidis

TL;DR通过提出一个新的评估框架，本研究旨在评估合成数据生成模型的能力以生成高质量的数据，利用统计和理论信息来比较模型的排名，并展示了该框架在两个应用场景下的实用性。

Abstract

Nowadays, the use of synthetic data has gained popularity as a cost-efficient strategy for enhancing data augmentation for improving machine lear

发现论文，激发创造

通过引入 SynEval 评估框架，对生成的合成表格数据进行质量、实用性和隐私保护方面的综合评估，以帮助研究人员和从业者在使用合成数据时有效地确定其适用性，并强调用户隐私的重要性。

Apr, 2024

通过综合文献回顾和团队经验，我们提出了一个概念性框架，以保证合成数据在医疗人工智能应用中的质量，并扩展了普遍质量维度，包括公平性和碳足迹，并提出了支持实际应用所必需的阶段，通过增加透明度和减少安全风险来增强对合成数据的信任，以加速可信任的医疗人工智能工具的发展和推广，促进患者受益。

Jan, 2024

本文介绍了一种通用的基准测试框架，以评估生成对抗网络等方法合成的医疗数据的实用性和隐私度量，并发现在共享用于电子健康记录的合成数据时存在实用性和隐私度量的折中。

Aug, 2022

本研究提出对生成模型产生的数据集进行多方面评估的框架，探讨了各种评估方法的优缺点

Dec, 2022

本文介绍了一种综合性框架，用于评估合成零售数据，注重保真度、实用性和隐私性。通过稳定性和普适性来衡量保真度，证明了合成数据在需求预测和动态定价等关键零售任务中的有效性，通过差分隐私确保数据具有出色的相似性和安全性，验证了该框架对于合成零售数据的可靠且可扩展的评估，是推进零售数据科学的重要工具。

Jun, 2024

通过提出一个带有单一、数学目标的评估框架，该论文意在解决合成表格数据质量评估的问题，允许通过结构化的方式推断度量的完整性，并统一从忠实性、下游应用和基于模型的方法等多个角度出发的度量，展示了显式表达结构的合成数据生成器在小型数据集上的卓越表现。

Mar, 2024

合成数据生成已成为金融机构的重要课题，本研究提出了一种新的合成数据生成框架，将监督组件与元学习方法结合，为特定下游任务学习最佳混合分布的已有合成分布。

Sep, 2023

通过开发多步骤的合成数据生成框架并评估其风险效用模型，成功评估了使用该框架生成的数据的质量，展示了开放 - CESP 倡议的技术和概念的可行性。

Oct, 2023

本文介绍了数据中心化思维的重要性和隐私问题、提出了基于合成数据的解决方案，并开发了一种全面的测试方法（DAISYnt），以检验这种方法在高度监管的领域中的可行性和质量，例如金融和医疗保健。

Apr, 2022

本研究使用最先进的合成数据生成方法并对在营养学领域的特定用例中生成的数据进行深入的质量分析，展示了对合成数据进行仔细分析的必要性，并通过扩展方法，全面分析从训练模型中抽样的效果，从而在所选择的用例中基本复现了重要的真实世界分析结果。

May, 2023