May, 2024

因果下游任务中的幻象与虚假

TL;DR机器学习和人工智能有潜力改变数据驱动的科学发现,通过准确预测多种科学现象。本文通过对治疗效果估计的因果推断任务进行研究,其中假设记录为高维图像的二元效果是在随机对照试验中进行的。我们发现,尽管这是最简单的设置且完全适合深度学习,但在文献中的许多常见选择可能导致有偏估计。通过在昆虫(Lasius neglectus)对微粒应用的群体间进行的 RCT 记录的实际基准测试下游因果推断任务,从最先进的视觉骨干中微调了 6,480 个模型,我们发现抽样和建模选择显著影响因果估计的准确性,并且分类准确性不能作为此的代理。我们进一步在控制因果模型的合成生成视觉数据集上重复验证分析。我们的结果表明,未来基准测试应认真考虑真实的下游科学问题,特别是因果关系问题。此外,我们强调了用于帮助回答科学领域的因果问题的表示学习方法的指南。所有的代码和数据将会发布。