LLMs 在因果推断上容易出现谬误

Jun, 2024

LLMs Are Prone to Fallacies in Causal Inference

Nitish Joshi, Abulhair Saparov, Yixin Wang, He He

TL;DR本研究通过合成数据对预训练语言模型进行微调，验证了模型对于从文本中推断因果关系的能力，发现模型容易根据实体在文本中的出现顺序推断因果关系，但在因果关系推断方面存在后验谬误，且对于反事实关系的推断较为困难，从而对模型对因果关系的理解提出了质疑。

Abstract

Recent work shows that causal facts can be effectively extracted from LLMs through prompting, facilitating the creation of causal graphs for causal inference tasks. However, it is unclear if this success is limit

causal facts causal graphs causal relations temporal relations counterfactuals

发现论文，激发创造

文本的零 - shot 因果图外推通过 LLMs

通过大型语言模型 (LLMs) 从自然语言中推断因果关系，并借助成对查询对因果图进行扩展，初始分析在生物医学文摘的基准上进行，结果有希望且支持在因果推断中采用 LLMs，尤其是在科学文本庞大且因果陈述经常隐含的医学领域。

Dec, 2023

大型语言模型与协作中的因果推断：综合调查

因果推断在捕捉变量之间的因果关系方面显示出在增强自然语言处理模型的预测准确性、公平性、鲁棒性和解释性方面的潜力。生成大型语言模型在通过其先进的推理能力显著影响各种自然语言处理领域的同时，这篇综述从因果的角度对生成大型语言模型进行评估和改进，从而理解和提高生成大型语言模型的推理能力，解决公平性和安全性问题，提供解释支持，并处理多模态数据。与此同时，生成大型语言模型强大的推理能力可以推动因果推断领域的发展，帮助发现因果关系和因果效应估计。本综述旨在探索因果推断框架和生成大型语言模型之间的相互作用，强调它们共同潜力以进一步开发更高级、更公平的人工智能系统。

Mar, 2024

因果推理与大型语言模型：为因果关系开辟新领域

本文探讨了大型语言模型（LLMs）的因果能力，证明它们在因果推理方面具有优越性能和独特的知识来源。同时，我们提供了技术来解释它们的鲁棒性，并认为 LLMs 可用作人类领域知识的代理以及降低因果分析中的人力成本。因此，LLMs 在推动因果研究、实践和采纳方面开辟了新的前沿。

Apr, 2023

用于因果决策的大型语言模型

通过对开源大语言模型进行微调，我们提出了 LLM4Causal，它能够识别因果任务、执行相应的函数并解释其数值结果，同时我们还提出了一种数据生成过程，用于更可控的 GPT 提示，并提供了两个指令微调数据集：因果检索基准和因果解释基准。通过三个案例研究，我们展示了 LLM4Causal 能够为因果问题提供端到端的解决方案并提供易于理解的答案。数值研究还显示，它在给定查询时具有寻找正确因果任务的显著能力。

Dec, 2023

因果关系：大型语言模型能真正理解因果关系吗？

提出了一种新颖的架构称为 “具有反事实分析的上下文感知推理增强框架”，通过将显式和隐式因果推理相结合，利用 ConceptNet 和反事实语句来提高因果推理和可解释性，进一步提供对因果关系的深度理解和促进可解释性。

Feb, 2024

LLM 导向的因果推断

基于观察数据的因果推断核心是确定可靠的因果图。本文研究表明，仅凭因果顺序而非完整图信息便足以进行因果效应推断。同时，我们利用大型语言模型（LLMs）作为虚拟领域专家，提出了一种从 LLMs 中获取因果顺序的鲁棒技术。实验证明，与传统的发现算法相比，我们的方法显著提高了因果顺序的准确性，突显了 LLMs 在各个领域增强因果推断的潜力。

Oct, 2023

从查询工具到因果架构：利用大型语言模型从数据中进行先进的因果发现

本文提出了一种结合基于知识的 LLMs 因果分析和数据驱动因果结构学习的新框架，以构建因果结构学习的新范式，并介绍了一套广泛的提示组，以从给定变量中提取因果图，并评估 LLM 先前因果对从数据中恢复因果结构的影响

Jun, 2023

基于提示和微调的 LLM 与因果图验证

该研究旨在利用自然语言处理技术通过文本来源对因果图进行自动验证。与之前的研究成果相比，该研究发现经过精调的预训练语言模型在因果关系分类任务上表现远超基于提示的语言模型，F1 得分最高提高了 20.5 个百分点。

May, 2024

评估大型语言模型的干预推理能力

评估大型语言模型在干预作用下准确更新其对数据生成过程的知识的能力，以及对因果推断中不同因果图和变量类型的干预性推理的研究。研究结果表明，虽然 GPT-4 模型在预测干预效果方面表现出有希望的准确性，但它们对提示中的干扰因素仍然敏感。

Apr, 2024

大型语言模型对因果推理是否需要全部知识？

该研究论文探讨了大型语言模型在提升人工智能的解释性和可靠性方面的因果推理。提出了一种利用 “do-operators” 构建反事实场景的因果归因模型，系统度量输入数值数据和语言模型先有知识对其因果推理过程的影响。实验评估发现，语言模型的因果推理能力依赖于所提供的上下文信息和特定领域的知识，并支持 “知识确实是语言模型在进行合理因果推理时主要需要的” 这一观点。与此相反，在缺乏知识的情况下，语言模型仍然通过可用的数值数据进行一定程度的因果推理，尽管计算存在一定限制。

Dec, 2023