使用 Copulas 生成和模拟合成数据集
本文提出了使用基于概率模型的合成数据生成器,通过正则化流学习联合分布密度估计以及单一边际分布密度估计,取得了在密度估计以及生成高保真合成数据方面面拟真度得到了有效的提升。
Jan, 2021
本研究提出了一个名为 SynC (Synthetic Population via Gaussian Copula) 的多阶段框架,以从聚合数据源中生成个人级数据,并证明其价值不仅是特征工程工具,而且在收集困难的情况下,还可以作为一种收集数据的替代方法。通过两个真实数据集,本研究展示了其功能,并发布了易于使用的框架实现,并确保该方法可以扩展到生产级别并可以轻松集成新数据。
Apr, 2019
本论文提出一种使用 copula 来明确建模多智能体系统中相关性和协调性的方法,该方法可以分别学习捕捉每个智能体局部行为模式的边缘分布以及完全捕捉智能体之间依赖结构的 copula 函数,实验结果表明,该模型在动作预测任务中表现优于现有基线,并能够生成接近于专家演示的新轨迹。
Jul, 2021
我们提出了一种基于高斯联合分布的特征选择方法,该方法可以在神经网络中进行实例级的特征选择,并捕捉变量之间的相关性。实验结果表明,我们的方法能够准确地捕捉到有意义的相关性。
Aug, 2023
我们提出了一种生成具有统计代表性的合成数据的方法,其主要目标是在合成数据集中保持原始数据集中存在的特征相关性,同时以舒适的隐私级别以满足特定客户需求。
Mar, 2024
通过开发多步骤的合成数据生成框架并评估其风险效用模型,成功评估了使用该框架生成的数据的质量,展示了开放 - CESP 倡议的技术和概念的可行性。
Oct, 2023
本文研究了通过模式的凸组合生成合成数据以及在半监督学习框架中利用这些数据作为无监督信息的效果,以支持小的高维度数据集和不平衡学习问题,而无需标记合成示例。作者在 53 个二元分类数据集上进行实验,结果表明该方法支持半监督学习中的聚类假设,对于小型高维度数据集和不平衡学习问题表现出色。
Mar, 2019
利用极值依赖理论提出了一种新的框架来解决半监督域自适应问题,该方法将任何多变量密度分别分解成边缘分布和二元 Copula 函数的乘积,通过检测和修正每个因素的变化来实现密度模型的适应,并引入了一种新颖的藤 Copula 模型,在非参数的情况下进行因式分解。实验结果表明,与最先进的技术相比,所提出的方法在具有真实世界数据的回归问题中表现出有效性。
Jan, 2013
合成数据生成已成为金融机构的重要课题,本研究提出了一种新的合成数据生成框架,将监督组件与元学习方法结合,为特定下游任务学习最佳混合分布的已有合成分布。
Sep, 2023
本研究使用最先进的合成数据生成方法并对在营养学领域的特定用例中生成的数据进行深入的质量分析,展示了对合成数据进行仔细分析的必要性,并通过扩展方法,全面分析从训练模型中抽样的效果,从而在所选择的用例中基本复现了重要的真实世界分析结果。
May, 2023