RealCause: 真实因果推断基准测试

Nov, 2020

RealCause: Realistic Causal Inference Benchmarking

Brady Neal, Chin-Wei Huang, Sunand Raghupathi

TL;DR该研究论文使用灵活的生成模型提供基准，既可以提供因果效应的真实值，又可以代表真实数据，评估了 1500 多种不同的因果效应估计器，并提供证据表明使用预测指标选择因果效应估计器的超参数是合理的。

Abstract

There are many different causal effect estimators in causal inference. However, it is unclear how to choose between these estimators because there is no ground-truth for causal effects. A commonly used option is

causal inference causal effect estimators simulated data real data hyperparameters

发现论文，激发创造

因果推断分析性能评估基准框架

本文介绍了一个综合框架，用于对评估算法进行基准测试，它包括用于预测的未标记数据、用于验证的标记数据以及使用已建立和新颖指标进行算法预测的自动评估的代码，并解决了缩放和数据屏蔽问题。

Feb, 2018

合成数据：能否信任统计估计器？

在研究中，我们强调了推论效用的重要性，并提供了反对从合成数据（处理这些数据就好像它们是真实观察到的一样）进行天真推断的实证证据，我们认为即使估计是无偏的，阳性结果的率（类型 1 错误）将会不可接受地高，一个原因是低估了真实标准误差，它可能会随着更大样本量而逐渐增加，导致收敛较慢。这对于深度生成模型尤其是一个问题。在发布合成数据之前，开发针对这样的数据的统计推断工具至关重要。

Dec, 2023

Synth-Validation: 为给定数据集选择最佳因果推断方法

本文提出了 synth-validation 方法，并使用它来估计在治疗效果研究中各种因果推断方法的估算错误，结果表明 synth-validation 方法能够降低预期的估计误差。

Oct, 2017

$ exttt {causalAssembly}$: 生成逼真的生产数据以进行因果关系发现的基准测试

本研究通过收集来自装配线的复杂数据集，建立了一个半合成制造数据的系统，通过分析其中的因果关系和使用 Python 库 causalAssembly 进行了多种因果推理算法的基准测试，以验证别人的因果关系学习算法在真实数据中的正确性和有效性。

Jun, 2023

异质因果效应估计模型选择的实证分析

研究因果推断中的模型选择问题，特别是针对二元处理条件下的条件平均处理效应（CATE）估计问题。作者设计了一种不依赖反事实数据的模型选择技术，并通过广泛实证分析验证了各种代理度量标准在真实数据集上的性能表现。

Nov, 2022

CausalSim: 一种用于无偏追踪驱动模拟的因果推断框架

CausalSim 是一个建立在因果推断框架之上的模拟器，其使用一个基于张量补全问题的方法去消除由于算法选择导致的偏差，实验表明使用 CausalSim 进行模拟的结果比专家设计和监督学习的基准结果平均下降了 53% 至 61%。

Jan, 2022

CausalTime: 用于因果发现基准测试的现实生成时间序列

使用 CausalTime 流程生成类似真实数据的时间序列，带有地面真实因果图以量化性能评估，该方法为实际应用中评估时间序列因果发现算法提供了可行的解决方案，并可泛化到广泛领域。

Oct, 2023

因果下游任务中的幻象与虚假

机器学习和人工智能有潜力改变数据驱动的科学发现，通过准确预测多种科学现象。本文通过对治疗效果估计的因果推断任务进行研究，其中假设记录为高维图像的二元效果是在随机对照试验中进行的。我们发现，尽管这是最简单的设置且完全适合深度学习，但在文献中的许多常见选择可能导致有偏估计。通过在昆虫（Lasius neglectus）对微粒应用的群体间进行的 RCT 记录的实际基准测试下游因果推断任务，从最先进的视觉骨干中微调了 6,480 个模型，我们发现抽样和建模选择显著影响因果估计的准确性，并且分类准确性不能作为此的代理。我们进一步在控制因果模型的合成生成视觉数据集上重复验证分析。我们的结果表明，未来基准测试应认真考虑真实的下游科学问题，特别是因果关系问题。此外，我们强调了用于帮助回答科学领域的因果问题的表示学习方法的指南。所有的代码和数据将会发布。

May, 2024

基于仿真的推断基准测试

通过建立合适的性能度量标准的基准，我们评估了一些最新的利用神经网络和经典近似贝叶斯计算方法的方法，发现性能度量的选择关键，即使是最先进的算法也有很大的改进空间，顺序估计提高了样本效率，神经网络方法通常表现更好，但没有均匀的最佳算法。

Jan, 2021

对对抗性图像生成方法的基准测试

本文提出了一个综合性框架，旨在评估反事实图像生成方法，并包含了聚焦于反事实的多个方面的评估指标，如组成、有效性、干预的最小性和图像逼真度。通过基于结构因果模型范式的三种不同的条件图像生成模型类型的性能评估，证明了该框架的有效性，并提供了一个用户友好的 Python 软件包，允许进一步评估和比较现有和未来的反事实图像生成方法。该框架可扩展至其他结构因果模型和其他因果方法、生成模型和数据集。

Mar, 2024