GPT-2 中的隐性因果关系：案例研究

Dec, 2022

GPT-2 中的隐性因果关系：案例研究

Implicit causality in GPT-2: a case study

Hien Huynh, Tomas O. Lentz, Emiel van Miltenburg

TL;DR本文研究 GPT-2 语言模型在完成句子任务时对本土语音者的暗示因果直觉掌握程度，验证了早期的结果并研究了性别、动词词频对模型表现的影响，并开发了避免模型生成的非正常语言影响人工评判的方法学。

Abstract

This case study investigates the extent to which a language model (GPT-2) is able to capture native speakers' intuitions about implicit causality in a sentence completion task. We first reproduce earlier results

language model implicit causality reasoning ability verb frequency methodology

发现论文，激发创造

内隐因果偏见及其与语言模型中显式提示的交互：以 John 因何称赞 Mary 为例

研究了预训练语言模型是否编码隐式因果偏差（IC 偏差）并在推理时使用它，发现三个独立的预训练语言模型架构都存在 IC 偏差，然而，当因果关系在从属从句中明确陈述时，主句中存在的不相容 IC 偏差会导致人类处理的延迟，PLMs 倾向于优先处理词汇模式，而不是更高阶的信号。

Jun, 2021

因果干预揭示了常识语言理解中的隐含情景模型

通过对最近的变形器模型应用因果干预技术分析了词义消歧问题上 “情境模型” 的表现，特别是注意头回路在隐含情境模型建立中发挥的作用及其通过不同路径对代词解析的引导方式进行比较。

Jun, 2023

运用认知心理学理解 GPT-3

本文借助认知心理学的工具对最近的大型语言模型 GPT-3 进行了研究评估其在任务决策、信息搜索、思考以及因果推理方面的能力，结果显示 GPT-3 表现出的许多行为令人印象深刻，能够像人类一样解决任务，但也发现了其局限性，如对于因果推理任务失败，这些结果丰富了我们对当前大型语言模型的理解，并为进一步利用认知心理学工具研究越来越能干和难以理解的人工智能代理铺平了道路。

Jun, 2022

ChatGPT 与简单语言推理：盲点和缺陷

研究探讨了 ChatGPT 在理解语言方面的局限性，着重于对于通常对人类来说很容易但对该模型来说具有挑战性的简单推理任务的限制，研究结果表明，虽然 ChatGPT 在某些领域具有语言理解的能力，但是其对于一些特定类型的蕴含有所盲区，该研究强调了更多的对 LLMs（大型语言模型）语言理解和推理能力的研究，以提高其可靠性，确立其在实际应用中的可信度。

May, 2023

在 GPT-3 和 GPT-4 中测试词义的因果模型

本研究通过 HIPE 理论评估了 GPT-3 和 GPT-4 的词汇表示，结果发现 GPT-3 未编码所假设的因果结构，但发现 GPT-4 编码了这种结构，为评估大型语言模型的表征能力做出了贡献。

May, 2023

因果语言模型中的交叉偏差

这篇研究论文主要研究了 GPT-2 和 GPT-NEO 语言生成模型中存在的交叉偏见问题，发现单一类别偏见解决方法的局限性，需要采用综合的技术和社区方法来应对复杂的交叉偏见问题。

Jul, 2021

ChatGPT 是否是一个良好的因果推理器？综合评估

本文对 ChatGPT 的因果推理能力进行了全面评估。实验结果表明，ChatGPT 在因果推理方面存在严重的幻觉，主要由于自然语言中因果关系和非因果关系之间的汇报偏差以及 ChatGPT 的升级过程。此外，在提示中使用的表达因果概念的单词对 ChatGPT 的因果推理能力产生重要影响，针对性较强的提示表现更好。ChatGPT 主要擅长捕捉显式的因果关系，对隐式的因果关系处理能力相对较差，对句子中事件密度较低和事件之间词汇距离较小的情况处理效果较好。

May, 2023

大型语言模型与人类在带有脚本知识的因果推理中有相似的行为吗？

最近，大规模预训练语言模型（LLM）展示了卓越的语言理解能力，包括零示例因果推理。然而，目前尚不清楚它们的能力在多大程度上与人类相似。本文研究了一个基于脚本故事中事件 $B$ 的处理，该事件的因果关系依赖于前一个事件 $A$。通过自行阅读实验，发现在因果冲突存在（$ eg A ightarrow B$）的情况下，人类的阅读时间明显较长，而在逻辑条件（$A ightarrow B$）下，阅读时间保持类似。然而，当未明确提及事件 A 时，阅读时间仍然类似，表明人类可以轻易从脚本知识中推断出事件 B。随后，我们测试了多种 LLM 模型在相同数据上的表现，以检查模型在多大程度上复制了人类行为。实验结果显示：1）只有最近的 LLM 模型，如 GPT-3 或 Vicuna，与人类行为在 $ eg A ightarrow B$ 条件下相关。2）尽管存在这种相关性，所有模型仍然无法预测 $nil ightarrow B$ 相对于 $ eg A ightarrow B$ 来说更不足为奇，表明 LLM 模型在整合脚本知识方面仍存在困难。我们的代码和收集的数据集可在此 https URL 获取。

Nov, 2023

Causal BERT: 文本中事件因果检测的语言模型

本篇论文探讨了使用句子语境与事件信息以及利用掩码事件语境和领域内外数据分布来识别自然语言文本中事件之间的因果关系，并证明该方法在三个不同的数据集上均取得了最新技术的表现，可用于从非结构化文本中提取因果关系图或建立事件链。

Dec, 2020

基于 Transformer 的 NLI 模型中的自然逻辑特征因果效应估计

利用因果效应估计策略衡量上下文干预和插入词对于推理标签的影响，通过广泛的干预研究验证模型对不相关变化的稳健性和对有影响变化的敏感性。

Apr, 2024