语言模型的因果评估

May, 2024

Causal Evaluation of Language Models

Sirui Chen, Bo Peng, Meiqi Chen, Ruiqi Wang, Mengying Xu...

TL;DR通过引入评估语言模型因果推理能力的综合基准 CaLM，该论文提出了四个模块的基础分类法以及一个由 126,334 个数据样本组成的 CaLM 数据集，并对 28 个领先的语言模型进行了全面评估，并给出了 50 个高级经验发现，以提供未来语言模型开发的有价值指导。

Abstract

causal reasoning is viewed as crucial for achieving human-level machine intelligence. Recent advances in language models have expanded the horizons of artificial intelligence across various domains, sparking inqu

causal reasoning language models evaluation benchmark empirical findings

发现论文，激发创造

因果关系：大型语言模型能真正理解因果关系吗？

提出了一种新颖的架构称为 “具有反事实分析的上下文感知推理增强框架”，通过将显式和隐式因果推理相结合，利用 ConceptNet 和反事实语句来提高因果推理和可解释性，进一步提供对因果关系的深度理解和促进可解释性。

Feb, 2024

CausalBench: 大型语言模型因果学习能力的综合评估

本研究提出了一个全面的基准测试系统 CausalBench，旨在评估大型语言模型在理解因果关系方面的能力。通过包含三个与因果学习相关的任务，并结合不同难度的任务场景，该系统能够方便地比较多种大型语言模型与经典因果学习算法的性能。研究利用 CausalBench 评估了 19 种领先的大型语言模型，揭示了它们在各个方面的优势和弱点，并定量地探索了它们在不同场景中能力的上限。此外，研究还定量地呈现了不同信息源之间的差异，并揭示了大型语言模型在文本上下文和数值领域中对因果理解能力的差距。

Apr, 2024

CLadder: 评估语言模型因果推理能力的基准

通过创建一个新的自然语言处理任务，基于因果图和问题，研究大型语言模型在因果推理方面的能力，并提出一种特定的激励策略来评估和分析这种推理能力。

Dec, 2023

CELLO: 大型视觉 - 语言模型的因果评估

通过细致而统一的因果关系定义以及涉及人类与 / 或物体之间相互作用的显式因果图，本论文构建了一个名为 CELLO 的新数据集，并表明当前的大规模视觉语言模型在因果推理任务上依然面临困难，但可以从提出的因果启发式思维提示策略 CELLO-CoT 中获得显著的收益。

Jun, 2024

因果推理与大型语言模型：为因果关系开辟新领域

本文探讨了大型语言模型（LLMs）的因果能力，证明它们在因果推理方面具有优越性能和独特的知识来源。同时，我们提供了技术来解释它们的鲁棒性，并认为 LLMs 可用作人类领域知识的代理以及降低因果分析中的人力成本。因此，LLMs 在推动因果研究、实践和采纳方面开辟了新的前沿。

Apr, 2023

CausaLM：通过反事实语言模型解释因果模型

文章提出了 CausaLM 框架，基于 fine-tuning 的 deep contextualized embedding models 通过辅助对抗性训练任务，学习给定概念的反事实表示，用于估计其对模型性能的真实因果效应。我们的方法的副产品是一种语言表示模型，可以减轻数据中固有的不良偏差。

May, 2020

基于能力的语言模型分析

本文提出了 CALM 实验框架并使用梯度基于对抗攻击的方法对语言模型的内部表示进行破坏性实验，以评估其在执行特定任务时使用每个表示的能力。在对 BERT 等 LM 执行对应关系提示任务的案例研究中，发现 LM 在执行每个任务时所利用的表示高度交织在一起，但可以在它们最常被利用的任务方面进行有意义的解释。

Mar, 2023

用于因果决策的大型语言模型

通过对开源大语言模型进行微调，我们提出了 LLM4Causal，它能够识别因果任务、执行相应的函数并解释其数值结果，同时我们还提出了一种数据生成过程，用于更可控的 GPT 提示，并提供了两个指令微调数据集：因果检索基准和因果解释基准。通过三个案例研究，我们展示了 LLM4Causal 能够为因果问题提供端到端的解决方案并提供易于理解的答案。数值研究还显示，它在给定查询时具有寻找正确因果任务的显著能力。

Dec, 2023

利用大型语言模型理解因果关系：可行性和机遇

我们分析了大型语言模型（LLMs) 回答因果问题的能力以及它们在三种类型的因果问题中的优势和劣势。我们认为，目前的 LLMs 可以结合现有的因果知识回答因果问题，但它们还不能满足于发现新的知识或高精度的决策任务。我们探讨了可能的未来方向和机会，例如启用显式和隐式因果模块以及深度因果感知 LLMs。这些不仅能够使 LLMs 回答更多不同类型的因果问题，也能使 LLMs 在一般情况下更加值得信赖和高效。

Apr, 2023

大型语言模型与协作中的因果推断：综合调查

因果推断在捕捉变量之间的因果关系方面显示出在增强自然语言处理模型的预测准确性、公平性、鲁棒性和解释性方面的潜力。生成大型语言模型在通过其先进的推理能力显著影响各种自然语言处理领域的同时，这篇综述从因果的角度对生成大型语言模型进行评估和改进，从而理解和提高生成大型语言模型的推理能力，解决公平性和安全性问题，提供解释支持，并处理多模态数据。与此同时，生成大型语言模型强大的推理能力可以推动因果推断领域的发展，帮助发现因果关系和因果效应估计。本综述旨在探索因果推断框架和生成大型语言模型之间的相互作用，强调它们共同潜力以进一步开发更高级、更公平的人工智能系统。

Mar, 2024