因果关系:大型语言模型能真正理解因果关系吗?
文章提出了 CausaLM 框架,基于 fine-tuning 的 deep contextualized embedding models 通过辅助对抗性训练任务,学习给定概念的反事实表示,用于估计其对模型性能的真实因果效应。我们的方法的副产品是一种语言表示模型,可以减轻数据中固有的不良偏差。
May, 2020
本文探讨了大型语言模型(LLMs)的因果能力,证明它们在因果推理方面具有优越性能和独特的知识来源。同时,我们提供了技术来解释它们的鲁棒性,并认为 LLMs 可用作人类领域知识的代理以及降低因果分析中的人力成本。因此,LLMs 在推动因果研究、实践和采纳方面开辟了新的前沿。
Apr, 2023
该研究论文探讨了大型语言模型在提升人工智能的解释性和可靠性方面的因果推理。提出了一种利用 “do-operators” 构建反事实场景的因果归因模型,系统度量输入数值数据和语言模型先有知识对其因果推理过程的影响。实验评估发现,语言模型的因果推理能力依赖于所提供的上下文信息和特定领域的知识,并支持 “知识确实是语言模型在进行合理因果推理时主要需要的” 这一观点。与此相反,在缺乏知识的情况下,语言模型仍然通过可用的数值数据进行一定程度的因果推理,尽管计算存在一定限制。
Dec, 2023
因果推断在捕捉变量之间的因果关系方面显示出在增强自然语言处理模型的预测准确性、公平性、鲁棒性和解释性方面的潜力。生成大型语言模型在通过其先进的推理能力显著影响各种自然语言处理领域的同时,这篇综述从因果的角度对生成大型语言模型进行评估和改进,从而理解和提高生成大型语言模型的推理能力,解决公平性和安全性问题,提供解释支持,并处理多模态数据。与此同时,生成大型语言模型强大的推理能力可以推动因果推断领域的发展,帮助发现因果关系和因果效应估计。本综述旨在探索因果推断框架和生成大型语言模型之间的相互作用,强调它们共同潜力以进一步开发更高级、更公平的人工智能系统。
Mar, 2024
我们分析了大型语言模型(LLMs) 回答因果问题的能力以及它们在三种类型的因果问题中的优势和劣势。我们认为,目前的 LLMs 可以结合现有的因果知识回答因果问题,但它们还不能满足于发现新的知识或高精度的决策任务。我们探讨了可能的未来方向和机会,例如启用显式和隐式因果模块以及深度因果感知 LLMs。这些不仅能够使 LLMs 回答更多不同类型的因果问题,也能使 LLMs 在一般情况下更加值得信赖和高效。
Apr, 2023
本文研究了大型语言模型在生成因果图方面的能力,通过将条件独立性查询作为 LLM 的提示并与 PC 算法的答案结合,提出了一种基于统计启发的投票模式来改善性能,并发现因果推理可以用于对概率查询进行合理解释,从而证明了基于知识的因果推理可能成为一种补充数据驱动因果发现的工具。
Jun, 2024
本文提出了一种结合基于知识的 LLMs 因果分析和数据驱动因果结构学习的新框架,以构建因果结构学习的新范式,并介绍了一套广泛的提示组,以从给定变量中提取因果图,并评估 LLM 先前因果对从数据中恢复因果结构的影响
Jun, 2023
通过对开源大语言模型进行微调,我们提出了 LLM4Causal,它能够识别因果任务、执行相应的函数并解释其数值结果,同时我们还提出了一种数据生成过程,用于更可控的 GPT 提示,并提供了两个指令微调数据集:因果检索基准和因果解释基准。通过三个案例研究,我们展示了 LLM4Causal 能够为因果问题提供端到端的解决方案并提供易于理解的答案。数值研究还显示,它在给定查询时具有寻找正确因果任务的显著能力。
Dec, 2023
本研究提出了一个全面的基准测试系统 CausalBench,旨在评估大型语言模型在理解因果关系方面的能力。通过包含三个与因果学习相关的任务,并结合不同难度的任务场景,该系统能够方便地比较多种大型语言模型与经典因果学习算法的性能。研究利用 CausalBench 评估了 19 种领先的大型语言模型,揭示了它们在各个方面的优势和弱点,并定量地探索了它们在不同场景中能力的上限。此外,研究还定量地呈现了不同信息源之间的差异,并揭示了大型语言模型在文本上下文和数值领域中对因果理解能力的差距。
Apr, 2024
通过创建一个新的自然语言处理任务,基于因果图和问题,研究大型语言模型在因果推理方面的能力,并提出一种特定的激励策略来评估和分析这种推理能力。
Dec, 2023