大型语言模型与人类在带有脚本知识的因果推理中有相似的行为吗？

Nov, 2023

大型语言模型与人类在带有脚本知识的因果推理中有相似的行为吗？

Do large language models and humans have similar behaviors in causal inference with script knowledge?

Xudong Hong, Margarita Ryzhova, Daniel Adrian Biondi, Vera Demberg

TL;DR最近，大规模预训练语言模型（LLM）展示了卓越的语言理解能力，包括零示例因果推理。然而，目前尚不清楚它们的能力在多大程度上与人类相似。本文研究了一个基于脚本故事中事件 $B$ 的处理，该事件的因果关系依赖于前一个事件 $A$。通过自行阅读实验，发现在因果冲突存在（$ eg A ightarrow B$）的情况下，人类的阅读时间明显较长，而在逻辑条件（$A ightarrow B$）下，阅读时间保持类似。然而，当未明确提及事件 A 时，阅读时间仍然类似，表明人类可以轻易从脚本知识中推断出事件 B。随后，我们测试了多种 LLM 模型在相同数据上的表现，以检查模型在多大程度上复制了人类行为。实验结果显示：1）只有最近的 LLM 模型，如 GPT-3 或 Vicuna，与人类行为在 $ eg A ightarrow B$ 条件下相关。2）尽管存在这种相关性，所有模型仍然无法预测 $nil ightarrow B$ 相对于 $ eg A ightarrow B$ 来说更不足为奇，表明 LLM 模型在整合脚本知识方面仍存在困难。我们的代码和收集的数据集可在此 https URL 获取。

Abstract

Recently, large pre-trained language models (LLMs) have demonstrated superior language understanding abilities, including zero-shot causal reasoning. However, it is unclear to what extent their capabilities are s

large pre-trained language models causal reasoning processing of an event self-paced reading experiment integrating script knowledge

发现论文，激发创造

因果推理与大型语言模型：为因果关系开辟新领域

本文探讨了大型语言模型（LLMs）的因果能力，证明它们在因果推理方面具有优越性能和独特的知识来源。同时，我们提供了技术来解释它们的鲁棒性，并认为 LLMs 可用作人类领域知识的代理以及降低因果分析中的人力成本。因此，LLMs 在推动因果研究、实践和采纳方面开辟了新的前沿。

Apr, 2023

大型语言模型是否具有时间性基础？

大型语言模型在时间上没有实质依据，缺乏自洽性并且表现出不一致的行为性。

Nov, 2023

评估大型语言模型的干预推理能力

评估大型语言模型在干预作用下准确更新其对数据生成过程的知识的能力，以及对因果推断中不同因果图和变量类型的干预性推理的研究。研究结果表明，虽然 GPT-4 模型在预测干预效果方面表现出有希望的准确性，但它们对提示中的干扰因素仍然敏感。

Apr, 2024

大型语言模型中的事件知识：不可能与不太可能之间的差距

研究人员测试了大型语言模型是否能够生成可信的真实世界事件描述，并发现这些模型虽然能够区分可能和不可能的事件，但在区分可能性较小的事件时仍然比人类表现差，这突显了 LLM 在事件知识方面存在的局限性。

Dec, 2022

用于因果决策的大型语言模型

通过对开源大语言模型进行微调，我们提出了 LLM4Causal，它能够识别因果任务、执行相应的函数并解释其数值结果，同时我们还提出了一种数据生成过程，用于更可控的 GPT 提示，并提供了两个指令微调数据集：因果检索基准和因果解释基准。通过三个案例研究，我们展示了 LLM4Causal 能够为因果问题提供端到端的解决方案并提供易于理解的答案。数值研究还显示，它在给定查询时具有寻找正确因果任务的显著能力。

Dec, 2023

文本的零 - shot 因果图外推通过 LLMs

通过大型语言模型 (LLMs) 从自然语言中推断因果关系，并借助成对查询对因果图进行扩展，初始分析在生物医学文摘的基准上进行，结果有希望且支持在因果推断中采用 LLMs，尤其是在科学文本庞大且因果陈述经常隐含的医学领域。

Dec, 2023

利用人工智能自动生成心理假设：大型语言模型与因果图相结合

结合因果知识图谱和大型语言模型，我们研究在心理学中引入了一种开创性的计算假设生成方法。我们利用大型语言模型分析了 43312 篇心理学文章，提取了因果关系对。通过应用链接预测算法，我们生成了 130 个关注 “幸福” 的心理学假设，并与由博士学者构思的研究想法以及仅由大型语言模型生成的假设进行了比较。有趣的是，我们结合使用大型语言模型和因果图的方法在新颖性方面明显超过了仅使用大型语言模型生成的假设（t (59) = 3.34, p=0.007，和 t (59) = 4.32, p<0.001，分别）。通过深度语义分析，这种一致性得到了进一步的证实。我们的结果表明，结合大型语言模型和机器学习技术，如因果知识图谱，可以在心理学中实现自动化的发现，从广泛的文献中提取新颖的见解。这项工作处于心理学和人工智能的交叉点上，为心理学研究中基于数据的假设生成跨出了新的丰富范式。

Feb, 2024

大型语言模型与协作中的因果推断：综合调查

因果推断在捕捉变量之间的因果关系方面显示出在增强自然语言处理模型的预测准确性、公平性、鲁棒性和解释性方面的潜力。生成大型语言模型在通过其先进的推理能力显著影响各种自然语言处理领域的同时，这篇综述从因果的角度对生成大型语言模型进行评估和改进，从而理解和提高生成大型语言模型的推理能力，解决公平性和安全性问题，提供解释支持，并处理多模态数据。与此同时，生成大型语言模型强大的推理能力可以推动因果推断领域的发展，帮助发现因果关系和因果效应估计。本综述旨在探索因果推断框架和生成大型语言模型之间的相互作用，强调它们共同潜力以进一步开发更高级、更公平的人工智能系统。

Mar, 2024

大型语言模型对因果推理是否需要全部知识？

该研究论文探讨了大型语言模型在提升人工智能的解释性和可靠性方面的因果推理。提出了一种利用 “do-operators” 构建反事实场景的因果归因模型，系统度量输入数值数据和语言模型先有知识对其因果推理过程的影响。实验评估发现，语言模型的因果推理能力依赖于所提供的上下文信息和特定领域的知识，并支持 “知识确实是语言模型在进行合理因果推理时主要需要的” 这一观点。与此相反，在缺乏知识的情况下，语言模型仍然通过可用的数值数据进行一定程度的因果推理，尽管计算存在一定限制。

Dec, 2023

人类与语言模型在预测重复文本时的差异

通过研究语言模型在下一个单词预测任务中的表现与人类行为模式的比较，发现人类与 GPT-2 语言模型在文本展现初期表现强相关，随着记忆（或背景学习）的作用逐渐发挥，二者的表现迅速分歧，研究发现这种分歧的原因是特定的中间层注意力头部，为此通过在这些注意力头部中添加幂律最近偏倚，构建了一个更接近人类行为的模型，希望此案例能够推动将语言模型更加贴近人类行为的未来研究。

Oct, 2023