推荐系统的部分合成数据:预测性能和偏好隐藏
本文讨论了合成数据和模拟器在改善推荐系统性能方面的潜力和已有成果,并探讨了在此过程中数据保真度和隐私之间的重要平衡。通过对真实数据和合成数据进行算法排名的重要用例,探讨了当前成功与限制,并概述了推荐系统的未来方向。这些方向包括混合真实数据和合成数据、反馈在数据集生成中的应用、健壮的模拟以及隐私保护方法。
Dec, 2021
通过开发多步骤的合成数据生成框架并评估其风险效用模型,成功评估了使用该框架生成的数据的质量,展示了开放 - CESP 倡议的技术和概念的可行性。
Oct, 2023
我们提出了一种综合评估合成数据的方法,该方法包括合成数据质量的三个维度:相似性、实用性和隐私性。通过将这种评估应用于三个不同的学习分析数据集以及三种不同的合成数据生成方法,我们的结果表明合成数据可以在保护隐私的同时保持与真实数据相似的实用性。此外,针对不同学习分析场景中不同的隐私和数据实用性需求,我们提出了定制的合成数据生成建议。该论文不仅提供了合成数据的综合评估,还说明了在学习分析领域中缓解隐私问题的潜力,从而促进了合成数据在学习分析中的更广泛应用,推动了开放科学的良好实践。
Jan, 2024
我们提出了一种生成具有统计代表性的合成数据的方法,其主要目标是在合成数据集中保持原始数据集中存在的特征相关性,同时以舒适的隐私级别以满足特定客户需求。
Mar, 2024
本文研究了通过模式的凸组合生成合成数据以及在半监督学习框架中利用这些数据作为无监督信息的效果,以支持小的高维度数据集和不平衡学习问题,而无需标记合成示例。作者在 53 个二元分类数据集上进行实验,结果表明该方法支持半监督学习中的聚类假设,对于小型高维度数据集和不平衡学习问题表现出色。
Mar, 2019
评估了现有生成模型绘制的合成数据的隐私保护优势,发现与传统的匿名化技术相比,其提供的隐私保护水平无法预测且数据效用低下,并不存在更好的隐私保护与数据效用均衡的解决方案。
Nov, 2020