RealCause: 真实因果推断基准测试
本文介绍了一个综合框架,用于对评估算法进行基准测试,它包括用于预测的未标记数据、用于验证的标记数据以及使用已建立和新颖指标进行算法预测的自动评估的代码,并解决了缩放和数据屏蔽问题。
Feb, 2018
在研究中,我们强调了推论效用的重要性,并提供了反对从合成数据(处理这些数据就好像它们是真实观察到的一样)进行天真推断的实证证据,我们认为即使估计是无偏的,阳性结果的率(类型 1 错误)将会不可接受地高,一个原因是低估了真实标准误差,它可能会随着更大样本量而逐渐增加,导致收敛较慢。这对于深度生成模型尤其是一个问题。在发布合成数据之前,开发针对这样的数据的统计推断工具至关重要。
Dec, 2023
本文提出了 synth-validation 方法,并使用它来估计在治疗效果研究中各种因果推断方法的估算错误,结果表明 synth-validation 方法能够降低预期的估计误差。
Oct, 2017
本研究通过收集来自装配线的复杂数据集,建立了一个半合成制造数据的系统,通过分析其中的因果关系和使用 Python 库 causalAssembly 进行了多种因果推理算法的基准测试,以验证别人的因果关系学习算法在真实数据中的正确性和有效性。
Jun, 2023
研究因果推断中的模型选择问题,特别是针对二元处理条件下的条件平均处理效应(CATE)估计问题。作者设计了一种不依赖反事实数据的模型选择技术,并通过广泛实证分析验证了各种代理度量标准在真实数据集上的性能表现。
Nov, 2022
CausalSim 是一个建立在因果推断框架之上的模拟器,其使用一个基于张量补全问题的方法去消除由于算法选择导致的偏差,实验表明使用 CausalSim 进行模拟的结果比专家设计和监督学习的基准结果平均下降了 53% 至 61%。
Jan, 2022
使用 CausalTime 流程生成类似真实数据的时间序列,带有地面真实因果图以量化性能评估,该方法为实际应用中评估时间序列因果发现算法提供了可行的解决方案,并可泛化到广泛领域。
Oct, 2023
机器学习和人工智能有潜力改变数据驱动的科学发现,通过准确预测多种科学现象。本文通过对治疗效果估计的因果推断任务进行研究,其中假设记录为高维图像的二元效果是在随机对照试验中进行的。我们发现,尽管这是最简单的设置且完全适合深度学习,但在文献中的许多常见选择可能导致有偏估计。通过在昆虫(Lasius neglectus)对微粒应用的群体间进行的 RCT 记录的实际基准测试下游因果推断任务,从最先进的视觉骨干中微调了 6,480 个模型,我们发现抽样和建模选择显著影响因果估计的准确性,并且分类准确性不能作为此的代理。我们进一步在控制因果模型的合成生成视觉数据集上重复验证分析。我们的结果表明,未来基准测试应认真考虑真实的下游科学问题,特别是因果关系问题。此外,我们强调了用于帮助回答科学领域的因果问题的表示学习方法的指南。所有的代码和数据将会发布。
May, 2024
通过建立合适的性能度量标准的基准,我们评估了一些最新的利用神经网络和经典近似贝叶斯计算方法的方法,发现性能度量的选择关键,即使是最先进的算法也有很大的改进空间,顺序估计提高了样本效率,神经网络方法通常表现更好,但没有均匀的最佳算法。
Jan, 2021
本文提出了一个综合性框架,旨在评估反事实图像生成方法,并包含了聚焦于反事实的多个方面的评估指标,如组成、有效性、干预的最小性和图像逼真度。通过基于结构因果模型范式的三种不同的条件图像生成模型类型的性能评估,证明了该框架的有效性,并提供了一个用户友好的 Python 软件包,允许进一步评估和比较现有和未来的反事实图像生成方法。该框架可扩展至其他结构因果模型和其他因果方法、生成模型和数据集。
Mar, 2024