基于双机器学习的非混淆下程序评估
通过对模拟数据和真实世界数据的性能比较,本文评估了一种名为 “双重 / 无偏机器学习”(DML)的方法,在估算因果效应时,使用机器学习放宽了传统假设的限制。我们发现,将灵活的机器学习算法应用于 DML 可以提高对各种非线性混淆关系的调整,从而避免了传统因果效应估计中通常需要的功能形式假设。然而,我们证明这种方法仍然严重依赖于因果结构和识别的标准假设。在我们的应用中,估计空气污染对房价的影响时,我们发现 DML 估计结果一直比不太灵活的方法估计结果要大。基于我们的整体结果,我们为研究人员在实际应用 DML 时提供了可行的建议。
Mar, 2024
我们开发了从面板数据中估计政策干预措施的估计量,允许混淆回归因子的非线性效果,并使用三个著名的机器学习算法(LASSO、分类和回归树以及随机森林)来研究这些估计量的性能。
Dec, 2023
应用机器学习方法解决高维数据下模型参数估计问题的方法被推广到了观测数据的平均处理效应估计,通过使用 Neyman-orthogonal scores 和交叉配对等技术进行设备参数的估计。
Jan, 2017
本文提出了一种基于双无偏机器学习 (DML) 的非参数推断方法,用于连续治疗变量的因果效应估计,同时解决了无遗漏条件和非参数 / 高维麻烦参数的问题,并通过利用基于核的双重稳健矩函数和交叉拟合提供了高级条件,以实现估计的无偏性。
Apr, 2020
通过因果推断框架运用 Double Machine Learning(DML)估计混合模型,展示了在地球科学领域中估计因果参数的优势、对正则化方法偏差的鲁棒性以及避免等效多样性。该方法在碳通量配分中展现了适应异质因果效果的灵活性,并强调了明确定义因果图和关系的必要性,提倡这作为一般最佳实践,鼓励继续探索混合模型中的因果性以获得更可解释和可信赖的知识导向机器学习结果。
Feb, 2024
通过局部修正的去偏机器学习方法,在因果推理中实现高效的参数估计,特别地,估计 (本地) 量化处理效应中高维干扰项内含参数的情况,格式为收敛速率条件松弛时远优于使用未知真实干扰项的估计器。
Dec, 2019
本文提出了一种新方法,双重机器学习 (Double ML),用于解决因变量的原因关系,利用多种主要和辅助机器学习预测模型解决辅助和主关键参数预测,通过 K 折采样交叉拟合解决过拟合问题。
Jul, 2016
本文探讨了在因果推断和治疗效果估计中使用非结构化多模态数据(即文本和图像)的方法。我们提出了一种适应双机器学习(DML)框架,特别是部分线性模型的神经网络架构。我们还提出了一种新方法来生成半合成数据集,以评估在存在文本和图像混淆因素的情况下因果效应估计的性能。所提出的方法和架构在半合成数据集上进行了评估,并与标准方法进行了比较,突显了直接使用文本和图像进行因果研究的潜在好处。我们的研究结果对经济学、市场营销、金融、医学和数据科学等领域的研究人员和实践者在使用非传统数据估计因果数量方面具有重要意义。
Feb, 2024
本文提出了一种双机器学习方法,以结合实验和观测研究,让从业人员能够测试假设的违规情况并一致地估计治疗效果,进而测试外部效度和忽略的可接受性。然而,我们的无免费午餐定理强调了准确识别被违反的假设对于一致的治疗效果估计的必要性。我们在三个实际案例研究中展示了我们的方法的适用性,并突出了其在实际设置中的相关性。
Jul, 2023