New text as data techniques offer a great promise: the ability to inductively
discover measures that are useful for testing social science theories of
interest from large collections of text. We introduce a conce
最近的基于文本的因果方法尝试通过将非结构化文本数据作为部分或不完全测量的混淆变量的代理来减轻混淆偏差。我们提出了一种新的因果推断方法,它使用两个零样本模型从预处理文本数据中推断出两个代理,并将这些代理应用于近端 g 公式中,从而解决了一个重要的未观测到的混淆变量的问题。我们证明了我们的基于文本的代理方法满足近端 g 公式所需的识别条件,而其他看似合理的提议则不满足。我们在合成和半合成环境中评估了我们的方法,并发现它产生了低偏差的估计。这种近端因果推断与零样本分类器的结合是新颖的(据我们所知),并扩展了可供实践者使用的文本特定的因果方法。