推荐系统的部分合成数据：预测性能和偏好隐藏

Aug, 2020

推荐系统的部分合成数据：预测性能和偏好隐藏

Partially Synthetic Data for Recommender Systems: Prediction Performance and Preference Hiding

Manel Slokom, Martha Larson, Alan Hanjalic

TL;DR本研究采用统计披露控制方法生成合成数据，防止数据泄露，并在推荐系统算法实验中测试并展示其相对性能与原始数据的变化以及其隐藏了原始数据中某些可访问属性的现象。

Abstract

This paper demonstrates the potential of statistical disclosure control for protecting the data used to train recommender systems. Specifically, we use a →

statistical disclosure control recommender systems synthetic data generation data privacy algorithm evaluation

发现论文，激发创造

推荐系统的合成数据与模拟器：现状与未来方向

本文讨论了合成数据和模拟器在改善推荐系统性能方面的潜力和已有成果，并探讨了在此过程中数据保真度和隐私之间的重要平衡。通过对真实数据和合成数据进行算法排名的重要用例，探讨了当前成功与限制，并概述了推荐系统的未来方向。这些方向包括混合真实数据和合成数据、反馈在数据集生成中的应用、健壮的模拟以及隐私保护方法。

Dec, 2021

一个基于距离的原创全合成数据生成方法的统计属性和隐私保证

通过开发多步骤的合成数据生成框架并评估其风险效用模型，成功评估了使用该框架生成的数据的质量，展示了开放 - CESP 倡议的技术和概念的可行性。

Oct, 2023

测量用于竞赛的合成数据的质量

通过研究算法相对性能，本文讨论如何生成保护数据隐私的合成数据，以解决共享数据所带来的隐私问题。

Jun, 2018

隐私保护的可扩展性：学习分析中全面综合的合成表格数据生成与评估

我们提出了一种综合评估合成数据的方法，该方法包括合成数据质量的三个维度：相似性、实用性和隐私性。通过将这种评估应用于三个不同的学习分析数据集以及三种不同的合成数据生成方法，我们的结果表明合成数据可以在保护隐私的同时保持与真实数据相似的实用性。此外，针对不同学习分析场景中不同的隐私和数据实用性需求，我们提出了定制的合成数据生成建议。该论文不仅提供了合成数据的综合评估，还说明了在学习分析领域中缓解隐私问题的潜力，从而促进了合成数据在学习分析中的更广泛应用，推动了开放科学的良好实践。

Jan, 2024

使用数据协作分析的隐私保护推荐系统

建立了一个隐私保护推荐系统的框架，通过对分布式数据集的数据协作分析，改进了分布式数据集的评级预测准确性。

May, 2024

什么是合成数据？好的，坏的和丑陋的

介绍了合成数据的定义、用途、隐私挑战和限制，探讨了其作为隐私增强技术的潜力。

Mar, 2023

保持相关性：一种生成合成数据的统计方法

我们提出了一种生成具有统计代表性的合成数据的方法，其主要目标是在合成数据集中保持原始数据集中存在的特征相关性，同时以舒适的隐私级别以满足特定客户需求。

Mar, 2024

利用半监督学习开发合成数据以处理小规模和不平衡数据集

本文研究了通过模式的凸组合生成合成数据以及在半监督学习框架中利用这些数据作为无监督信息的效果，以支持小的高维度数据集和不平衡学习问题，而无需标记合成示例。作者在 53 个二元分类数据集上进行实验，结果表明该方法支持半监督学习中的聚类假设，对于小型高维度数据集和不平衡学习问题表现出色。

Mar, 2019

合成数据 -- 匿名化之地普通日

评估了现有生成模型绘制的合成数据的隐私保护优势，发现与传统的匿名化技术相比，其提供的隐私保护水平无法预测且数据效用低下，并不存在更好的隐私保护与数据效用均衡的解决方案。

Nov, 2020

使用合成数据训练 AI 模型：可持续发展的机遇与风险

研究了合成数据的政策，包括创建、利用和传播。必须在保护隐私和数据的可用性之间找到平衡，并制定标准化准则来应对合成数据的挑战。

Aug, 2023