Jul, 2024

数值数据因果发现算法的综述和实证评估

TL;DR本研究通过审查现有文献并进行实证评估,在理解各领域现象根本原因的认识中,针对因果发现算法的碎片化、方法不一致以及缺乏全面评估等问题进行了全面而系统的研究,以提供对该领域的更清晰、更结构化的认识。研究中包括了对纳入10多年的、现有综述未能涵盖的因果发现进展的全面文献回顾,对200多篇学术文章的详细分析,鉴别出24个不同的算法,并以复杂性为导向,将这些方法划分为6个主要类型的分类法。研究还对20多个因果发现算法在合成和真实数据集上进行了扩展的实证评估,将合成数据集根据规模、线性度和噪声分布进行分类,运用了5个评估指标,并对不同数据场景的前3个算法推荐进行了总结,这些推荐已在2个真实数据集上得到验证。我们的研究结果突出了数据集特征对算法性能的重要影响。此外,我们还开发了一种元数据提取策略,用于帮助用户在未知数据集上选择算法。元数据估计的准确度超过80%。基于这些发现,我们提供了专业而实用的建议,以帮助用户选择最适合其特定数据集需求的因果发现方法。