利用文本进行因果推断的方法

Feb, 2018

How to Make Causal Inferences Using Texts

Naoki Egami, Christian J. Fong, Justin Grimmer, Margaret E. Roberts, Brandon M. Stewart

TL;DR文章提出了一种使用新的数据技术进行文本数据分析的概念框架，以发现可以测试社会科学理论的有用标准，并提供了一种基于隐含表征的文本数据推理方法。

Abstract

New text as data techniques offer a great promise: the ability to inductively discover measures that are useful for testing social science theories of interest from large collections of text. We introduce a conce

text-based causal inferences latent representation data techniques causal effects social science theories

发现论文，激发创造

文本与因果推断：使用文本消除因果估计中的混淆因素的综述

本文回顾了计算社会科学中利用文本分析解决因果推论中混淆变量引起偏差的方法，并提出数据处理及评估决策的指南。尽管在利用文本分析进行混淆因素调整方面已取得了进展，但仍存在很多未解决的问题。

May, 2020

使用文本进行混淆因素调整：因果推断中的挑战和实证评估框架

该研究提供了第一个结合真实世界研究任务的文本因果推理方法的经验评估框架，评估了常用文本因果推理方法的优缺点，并公开任务、数据和模型，以促进应用和鼓励额外研究。

Sep, 2020

使用文本数据进行因果推断的几点思考：人类受试者和组织化文本之间的相似之处

通过绘制人类主体和有组织文本之间的平行关系，我们探讨了文本数据在进行因果推论时的作用。文章强调了关键因果概念和原则，并提出了两种策略来更好地确定因果查询问题。我们希望本文能提高人们对在使用文本数据进行因果推论时阐述和澄清基本概念的重要性的认识。

Feb, 2022

从文本中进行因果推断：揭示变量之间的相互作用

从观察性文本数据中估计因果效应时，考虑潜在协变量的调整至关重要。然而，现有方法只考虑影响治疗和结果的混杂协变量，可能导致偏倚的因果效应估计。本研究旨在通过揭示不同变量之间的相互作用来解开估计文本因果效应时的非混杂协变量，从而减小偏倚。解开过程确保协变量只对各自的目标贡献，实现变量之间的独立性。此外，我们引入约束条件来平衡治疗组和对照组的表示，以减轻选择偏倚。在不同场景下，我们对两种不同处理因子进行实验，实验证明了我们提出的模型明显优于最近的强基线。此外，对收入电话会议记录的彻底分析表明，我们的模型能够有效解开变量，进一步的研究为投资者提供了决策指南。

Nov, 2023

使用文本分类器进行因果推断的挑战

本研究探讨了文本分类器在因果推断中的应用，研究结果表明其可用于基于语言数据的因果分析，并讨论了使用文本数据进行因果推断的机会和挑战。

Oct, 2018

利用电子健康记录进行因果推断的文本数据挖掘

使用大量患者记录和治疗历史的文本数据，可以在临床数据的全部阶段中以最小的额外工作量支持因果推断，通过三种方式利用文本数据增强经典匹配分析，改善缺失数据的模拟值的准确性、增强匹配过程的合理性，并结合文本变量来估计易于解释的基于文本的治疗效应。希望利用这些技术拓展临床数据的次级分析范围，特别是在定量数据质量差或不存在的情况下，但有文本数据可用，例如在发展中国家。

Jun, 2023

基于文本数据的近端因果推断

最近的基于文本的因果方法尝试通过将非结构化文本数据作为部分或不完全测量的混淆变量的代理来减轻混淆偏差。我们提出了一种新的因果推断方法，它使用两个零样本模型从预处理文本数据中推断出两个代理，并将这些代理应用于近端 g 公式中，从而解决了一个重要的未观测到的混淆变量的问题。我们证明了我们的基于文本的代理方法满足近端 g 公式所需的识别条件，而其他看似合理的提议则不满足。我们在合成和半合成环境中评估了我们的方法，并发现它产生了低偏差的估计。这种近端因果推断与零样本分类器的结合是新颖的（据我们所知），并扩展了可供实践者使用的文本特定的因果方法。

Jan, 2024

文本传输：朝着学习自然语言的因果效应迈进

通过介绍 Text-Transport 方法，本文研究了语言技术对读者感知的影响，提出使用分布转移的估计器来传输因果效应，在自然语言数据分布改变的情况下具备统计保证，并应用于研究社交媒体上的仇恨言论，展示了进行自然语言因果推断时传输的必要性。

Oct, 2023

一切皆有因：在法律文本分析中利用因果推断

本论文提出了一种新颖的基于图的因果推理（GCI）框架，可以从事实描述中构建因果图，以帮助法律从业人员做出适当的决策，并且该框架中的因果知识可以有效地注入强大的神经网络以获得更好的性能和可解释性。

Apr, 2021

因果推断综述

本文综述了在潜在结果框架下，针对观察数据的因果推断方法。这些方法分为两类，包括传统的统计学方法和最新的机器学习方法，还介绍了这些方法在广告、推荐、医学等领域的应用以及常用的基准数据集和开源代码。

Feb, 2020