隐私保护的可扩展性：学习分析中全面综合的合成表格数据生成与评估

Jan, 2024

隐私保护的可扩展性：学习分析中全面综合的合成表格数据生成与评估

Scaling While Privacy Preserving: A Comprehensive Synthetic Tabular Data Generation and Evaluation in Learning Analytics

PDF

Qinyi Liu, Mohammad Khalil, Ronas Shakya, Jelena Jovanovic

TL;DR我们提出了一种综合评估合成数据的方法，该方法包括合成数据质量的三个维度：相似性、实用性和隐私性。通过将这种评估应用于三个不同的学习分析数据集以及三种不同的合成数据生成方法，我们的结果表明合成数据可以在保护隐私的同时保持与真实数据相似的实用性。此外，针对不同学习分析场景中不同的隐私和数据实用性需求，我们提出了定制的合成数据生成建议。该论文不仅提供了合成数据的综合评估，还说明了在学习分析领域中缓解隐私问题的潜力，从而促进了合成数据在学习分析中的更广泛应用，推动了开放科学的良好实践。

Abstract

privacy poses a significant obstacle to the progress of learning analytics (LA), presenting challenges like inadequate anonymization and data misuse that current solutions struggle to address. →

privacy learning analytics synthetic data evaluation data utility

发现论文，激发创造

合成数据 -- 匿名化之地普通日

评估了现有生成模型绘制的合成数据的隐私保护优势，发现与传统的匿名化技术相比，其提供的隐私保护水平无法预测且数据效用低下，并不存在更好的隐私保护与数据效用均衡的解决方案。

Nov, 2020

推动零售数据科学：合成数据的综合评估

本文介绍了一种综合性框架，用于评估合成零售数据，注重保真度、实用性和隐私性。通过稳定性和普适性来衡量保真度，证明了合成数据在需求预测和动态定价等关键零售任务中的有效性，通过差分隐私确保数据具有出色的相似性和安全性，验证了该框架对于合成零售数据的可靠且可扩展的评估，是推进零售数据科学的重要工具。

Jun, 2024

一个基于距离的原创全合成数据生成方法的统计属性和隐私保证

通过开发多步骤的合成数据生成框架并评估其风险效用模型，成功评估了使用该框架生成的数据的质量，展示了开放 - CESP 倡议的技术和概念的可行性。

Oct, 2023

合成表格数据生成的实用性

研究了使用合成表格数据进行数据共享、数据增强、类别平衡和数据摘要等四种情况下，机器学习性能的表现，然而，作者得出结论认为没有足够的证据证明合成数据对于机器学习训练有用。

Jun, 2023

测量用于竞赛的合成数据的质量

通过研究算法相对性能，本文讨论如何生成保护数据隐私的合成数据，以解决共享数据所带来的隐私问题。

Jun, 2018

朝向基于原则的表格数据合成算法评估

利用扩散模型和大型语言模型的新型综合器进行对比评估，提出了一套评估指标，旨在解决现有评估指标的局限性，并为调优提供了普遍目标，以保护数据隐私和提高合成数据的质量。

Feb, 2024

评估大型语言模型生成的合成数据的多方面评价框架

通过引入 SynEval 评估框架，对生成的合成表格数据进行质量、实用性和隐私保护方面的综合评估，以帮助研究人员和从业者在使用合成数据时有效地确定其适用性，并强调用户隐私的重要性。

Apr, 2024

隐私保护的合成教育数据生成

本文提出了一种保护参与者隐私的教育数据生成模型和比较合成数据生成器的评估框架，阐述了 Naive 假名化可能导致的再识别威胁，并提出了保证隐私的技术。作者还在现有的大规模教育开放数据集上进行了评估。

Jul, 2022

衡量和减轻表格生成模型的隐私风险

合成数据和生成模型在隐私保护的数据共享解决方案中迅速崛起，并通过在表格综合机上实施全面的实证分析，突出了五种最先进表格综合机的实用 - 隐私权衡，提出了一个新的差分隐私表格潜在扩散模型，称为 DP-TLDM，能够在保持可比较的隐私风险水平的同时，显著提高合成数据的实用性。

Mar, 2024

深度生成模型、合成表格数据与差分隐私：概述与综述

该文章综合介绍了最近在通过深度生成模型生成合成数据方面的研究进展，重点关注表格数据集。我们特别概述了在隐私敏感数据背景下合成数据生成的重要性。此外，我们强调了使用深度生成模型相对于其他方法的优势，并详细解释了底层概念，包括无监督学习、神经网络和生成模型。该论文涵盖了在对表格数据集使用深度生成模型时涉及的挑战和考虑因素，如数据归一化、隐私问题和模型评估。本综述为对合成数据生成及其应用感兴趣的研究人员和实践者提供了有价值的资源。

Jul, 2023