使用 Copulas 生成和模拟合成数据集

Mar, 2022

使用 Copulas 生成和模拟合成数据集

Generation and Simulation of Synthetic Datasets with Copulas

Regis Houssou, Mihai-Cezar Augustin, Efstratios Rappos, Vivien Bonvin, Stephan Robert-Nicoud

TL;DR本论文提出了一种基于 copula 模型生成合成数据集的新方法，以生成在边际和联合分布方面类似于真实数据的代理数据。将该方法应用于两个数据集显示出比 SMOTE 和自编码器等其他方法更好的性能。

Abstract

This paper proposes a new method to generate synthetic data sets based on copula models. Our goal is to produce surrogate data resembling real data in terms of marginal and →

synthetic data copula models marginal distributions joint distributions algorithm

发现论文，激发创造

用于合成数据生成的 Copula 流

本文提出了使用基于概率模型的合成数据生成器，通过正则化流学习联合分布密度估计以及单一边际分布密度估计，取得了在密度估计以及生成高保真合成数据方面面拟真度得到了有效的提升。

Jan, 2021

SynC: 一种使用高斯 Copula 生成合成人口的统一框架

本研究提出了一个名为 SynC (Synthetic Population via Gaussian Copula) 的多阶段框架，以从聚合数据源中生成个人级数据，并证明其价值不仅是特征工程工具，而且在收集困难的情况下，还可以作为一种收集数据的替代方法。通过两个真实数据集，本研究展示了其功能，并发布了易于使用的框架实现，并确保该方法可以扩展到生产级别并可以轻松集成新数据。

Apr, 2019

基于 Copulas 的多智能体模仿学习

本论文提出一种使用 copula 来明确建模多智能体系统中相关性和协调性的方法，该方法可以分别学习捕捉每个智能体局部行为模式的边缘分布以及完全捕捉智能体之间依赖结构的 copula 函数，实验结果表明，该模型在动作预测任务中表现优于现有基线，并能够生成接近于专家演示的新轨迹。

Jul, 2021

基于个例的特征选择和排序的共轭

我们提出了一种基于高斯联合分布的特征选择方法，该方法可以在神经网络中进行实例级的特征选择，并捕捉变量之间的相关性。实验结果表明，我们的方法能够准确地捕捉到有意义的相关性。

Aug, 2023

保持相关性：一种生成合成数据的统计方法

我们提出了一种生成具有统计代表性的合成数据的方法，其主要目标是在合成数据集中保持原始数据集中存在的特征相关性，同时以舒适的隐私级别以满足特定客户需求。

Mar, 2024

一个基于距离的原创全合成数据生成方法的统计属性和隐私保证

通过开发多步骤的合成数据生成框架并评估其风险效用模型，成功评估了使用该框架生成的数据的质量，展示了开放 - CESP 倡议的技术和概念的可行性。

Oct, 2023

利用半监督学习开发合成数据以处理小规模和不平衡数据集

本文研究了通过模式的凸组合生成合成数据以及在半监督学习框架中利用这些数据作为无监督信息的效果，以支持小的高维度数据集和不平衡学习问题，而无需标记合成示例。作者在 53 个二元分类数据集上进行实验，结果表明该方法支持半监督学习中的聚类假设，对于小型高维度数据集和不平衡学习问题表现出色。

Mar, 2019

使用非参数概率联合分布实现半监督领域自适应

利用极值依赖理论提出了一种新的框架来解决半监督域自适应问题，该方法将任何多变量密度分别分解成边缘分布和二元 Copula 函数的乘积，通过检测和修正每个因素的变化来实现密度模型的适应，并引入了一种新颖的藤 Copula 模型，在非参数的情况下进行因式分解。实验结果表明，与最先进的技术相比，所提出的方法在具有真实世界数据的回归问题中表现出有效性。

Jan, 2013

一种用于表格数据的有监督生成优化方法

合成数据生成已成为金融机构的重要课题，本研究提出了一种新的合成数据生成框架，将监督组件与元学习方法结合，为特定下游任务学习最佳混合分布的已有合成分布。

Sep, 2023

为纵向队列研究生成合成数据 —— 评估、方法扩展与已发布的数据分析结果再现

本研究使用最先进的合成数据生成方法并对在营养学领域的特定用例中生成的数据进行深入的质量分析，展示了对合成数据进行仔细分析的必要性，并通过扩展方法，全面分析从训练模型中抽样的效果，从而在所选择的用例中基本复现了重要的真实世界分析结果。

May, 2023