使用文本进行混淆因素调整:因果推断中的挑战和实证评估框架
本文回顾了计算社会科学中利用文本分析解决因果推论中混淆变量引起偏差的方法,并提出数据处理及评估决策的指南。尽管在利用文本分析进行混淆因素调整方面已取得了进展,但仍存在很多未解决的问题。
May, 2020
从观察性文本数据中估计因果效应时,考虑潜在协变量的调整至关重要。然而,现有方法只考虑影响治疗和结果的混杂协变量,可能导致偏倚的因果效应估计。本研究旨在通过揭示不同变量之间的相互作用来解开估计文本因果效应时的非混杂协变量,从而减小偏倚。解开过程确保协变量只对各自的目标贡献,实现变量之间的独立性。此外,我们引入约束条件来平衡治疗组和对照组的表示,以减轻选择偏倚。在不同场景下,我们对两种不同处理因子进行实验,实验证明了我们提出的模型明显优于最近的强基线。此外,对收入电话会议记录的彻底分析表明,我们的模型能够有效解开变量,进一步的研究为投资者提供了决策指南。
Nov, 2023
最近的基于文本的因果方法尝试通过将非结构化文本数据作为部分或不完全测量的混淆变量的代理来减轻混淆偏差。我们提出了一种新的因果推断方法,它使用两个零样本模型从预处理文本数据中推断出两个代理,并将这些代理应用于近端 g 公式中,从而解决了一个重要的未观测到的混淆变量的问题。我们证明了我们的基于文本的代理方法满足近端 g 公式所需的识别条件,而其他看似合理的提议则不满足。我们在合成和半合成环境中评估了我们的方法,并发现它产生了低偏差的估计。这种近端因果推断与零样本分类器的结合是新颖的(据我们所知),并扩展了可供实践者使用的文本特定的因果方法。
Jan, 2024
通过绘制人类主体和有组织文本之间的平行关系,我们探讨了文本数据在进行因果推论时的作用。文章强调了关键因果概念和原则,并提出了两种策略来更好地确定因果查询问题。我们希望本文能提高人们对在使用文本数据进行因果推论时阐述和澄清基本概念的重要性的认识。
Feb, 2022
本文提出了一个将文本数据匹配到更高、更有比较性的结果中去的框架,并成功开发出一个预估模型可以精确预估最佳匹配结果的数值,以此提高了在媒体偏见和医学干预研究中使用文本匹配以改进因果推断的准确性。
Jan, 2018
使用大量患者记录和治疗历史的文本数据,可以在临床数据的全部阶段中以最小的额外工作量支持因果推断,通过三种方式利用文本数据增强经典匹配分析,改善缺失数据的模拟值的准确性、增强匹配过程的合理性,并结合文本变量来估计易于解释的基于文本的治疗效应。希望利用这些技术拓展临床数据的次级分析范围,特别是在定量数据质量差或不存在的情况下,但有文本数据可用,例如在发展中国家。
Jun, 2023
本文介绍了一个综合框架,用于对评估算法进行基准测试,它包括用于预测的未标记数据、用于验证的标记数据以及使用已建立和新颖指标进行算法预测的自动评估的代码,并解决了缩放和数据屏蔽问题。
Feb, 2018
本文探讨了通过采用语篇分析构建自动化分析因果关系解释的方法,包括因果关系检测和因果解释识别,展示了完整流水线的应用程序,并探讨了在社交媒体上进行自动化分析的应用领域。
Sep, 2018