使用文本进行混淆因素调整：因果推断中的挑战和实证评估框架

Sep, 2020

使用文本进行混淆因素调整：因果推断中的挑战和实证评估框架

Adjusting for Confounders with Text: Challenges and an Empirical Evaluation Framework for Causal Inference

Galen Weld, Peter West, Maria Glenski, David Arbour, Ryan Rossi...

TL;DR该研究提供了第一个结合真实世界研究任务的文本因果推理方法的经验评估框架，评估了常用文本因果推理方法的优缺点，并公开任务、数据和模型，以促进应用和鼓励额外研究。

Abstract

causal inference studies using textual social media data can provide actionable insights on human behavior. Making accurate causal inferences with text requires controlling for →

causal inference textual social media data confounding evaluation framework commonly used causal inference method

发现论文，激发创造

文本与因果推断：使用文本消除因果估计中的混淆因素的综述

本文回顾了计算社会科学中利用文本分析解决因果推论中混淆变量引起偏差的方法，并提出数据处理及评估决策的指南。尽管在利用文本分析进行混淆因素调整方面已取得了进展，但仍存在很多未解决的问题。

May, 2020

利用文本进行因果推断的方法

文章提出了一种使用新的数据技术进行文本数据分析的概念框架，以发现可以测试社会科学理论的有用标准，并提供了一种基于隐含表征的文本数据推理方法。

Feb, 2018

从文本中进行因果推断：揭示变量之间的相互作用

从观察性文本数据中估计因果效应时，考虑潜在协变量的调整至关重要。然而，现有方法只考虑影响治疗和结果的混杂协变量，可能导致偏倚的因果效应估计。本研究旨在通过揭示不同变量之间的相互作用来解开估计文本因果效应时的非混杂协变量，从而减小偏倚。解开过程确保协变量只对各自的目标贡献，实现变量之间的独立性。此外，我们引入约束条件来平衡治疗组和对照组的表示，以减轻选择偏倚。在不同场景下，我们对两种不同处理因子进行实验，实验证明了我们提出的模型明显优于最近的强基线。此外，对收入电话会议记录的彻底分析表明，我们的模型能够有效解开变量，进一步的研究为投资者提供了决策指南。

Nov, 2023

基于文本数据的近端因果推断

最近的基于文本的因果方法尝试通过将非结构化文本数据作为部分或不完全测量的混淆变量的代理来减轻混淆偏差。我们提出了一种新的因果推断方法，它使用两个零样本模型从预处理文本数据中推断出两个代理，并将这些代理应用于近端 g 公式中，从而解决了一个重要的未观测到的混淆变量的问题。我们证明了我们的基于文本的代理方法满足近端 g 公式所需的识别条件，而其他看似合理的提议则不满足。我们在合成和半合成环境中评估了我们的方法，并发现它产生了低偏差的估计。这种近端因果推断与零样本分类器的结合是新颖的（据我们所知），并扩展了可供实践者使用的文本特定的因果方法。

Jan, 2024

使用文本分类器进行因果推断的挑战

本研究探讨了文本分类器在因果推断中的应用，研究结果表明其可用于基于语言数据的因果分析，并讨论了使用文本数据进行因果推断的机会和挑战。

Oct, 2018

使用文本数据进行因果推断的几点思考：人类受试者和组织化文本之间的相似之处

通过绘制人类主体和有组织文本之间的平行关系，我们探讨了文本数据在进行因果推论时的作用。文章强调了关键因果概念和原则，并提出了两种策略来更好地确定因果查询问题。我们希望本文能提高人们对在使用文本数据进行因果推论时阐述和澄清基本概念的重要性的认识。

Feb, 2022

文本匹配：匹配文档方法的实验评估和匹配质量度量

本文提出了一个将文本数据匹配到更高、更有比较性的结果中去的框架，并成功开发出一个预估模型可以精确预估最佳匹配结果的数值，以此提高了在媒体偏见和医学干预研究中使用文本匹配以改进因果推断的准确性。

Jan, 2018

利用电子健康记录进行因果推断的文本数据挖掘

使用大量患者记录和治疗历史的文本数据，可以在临床数据的全部阶段中以最小的额外工作量支持因果推断，通过三种方式利用文本数据增强经典匹配分析，改善缺失数据的模拟值的准确性、增强匹配过程的合理性，并结合文本变量来估计易于解释的基于文本的治疗效应。希望利用这些技术拓展临床数据的次级分析范围，特别是在定量数据质量差或不存在的情况下，但有文本数据可用，例如在发展中国家。

Jun, 2023

因果推断分析性能评估基准框架

本文介绍了一个综合框架，用于对评估算法进行基准测试，它包括用于预测的未标记数据、用于验证的标记数据以及使用已建立和新颖指标进行算法预测的自动评估的代码，并解决了缩放和数据屏蔽问题。

Feb, 2018

社交媒体上的因果解释分析

本文探讨了通过采用语篇分析构建自动化分析因果关系解释的方法，包括因果关系检测和因果解释识别，展示了完整流水线的应用程序，并探讨了在社交媒体上进行自动化分析的应用领域。

Sep, 2018