CaT-BENCH: 基准测试计划中因果和时间依赖的语言模型理解能力

Jun, 2024

CaT-BENCH: 基准测试计划中因果和时间依赖的语言模型理解能力

CaT-BENCH: Benchmarking Language Model Understanding of Causal and Temporal Dependencies in Plans

Yash Kumar Lal, Vanya Cohen, Nathanael Chambers, Niranjan Balasubramanian, Raymond Mooney

TL;DR通过引入 CaT-Bench 基准测试评估 LLMs 对步骤之间的因果依赖关系的理解能力，研究发现 LLMs 在此方面仍有改进空间。

Abstract

Understanding the abilities of llms to reason about natural language plans, such as instructional text and recipes, is critical to reliably using them in decision-making systems. A fundamental aspect of plans is

llms reasoning temporal order causal dependencies recipes

发现论文，激发创造

CausalBench: 大型语言模型因果学习能力的综合评估

本研究提出了一个全面的基准测试系统 CausalBench，旨在评估大型语言模型在理解因果关系方面的能力。通过包含三个与因果学习相关的任务，并结合不同难度的任务场景，该系统能够方便地比较多种大型语言模型与经典因果学习算法的性能。研究利用 CausalBench 评估了 19 种领先的大型语言模型，揭示了它们在各个方面的优势和弱点，并定量地探索了它们在不同场景中能力的上限。此外，研究还定量地呈现了不同信息源之间的差异，并揭示了大型语言模型在文本上下文和数值领域中对因果理解能力的差距。

Apr, 2024

因果关系：大型语言模型能真正理解因果关系吗？

提出了一种新颖的架构称为 “具有反事实分析的上下文感知推理增强框架”，通过将显式和隐式因果推理相结合，利用 ConceptNet 和反事实语句来提高因果推理和可解释性，进一步提供对因果关系的深度理解和促进可解释性。

Feb, 2024

用于因果决策的大型语言模型

通过对开源大语言模型进行微调，我们提出了 LLM4Causal，它能够识别因果任务、执行相应的函数并解释其数值结果，同时我们还提出了一种数据生成过程，用于更可控的 GPT 提示，并提供了两个指令微调数据集：因果检索基准和因果解释基准。通过三个案例研究，我们展示了 LLM4Causal 能够为因果问题提供端到端的解决方案并提供易于理解的答案。数值研究还显示，它在给定查询时具有寻找正确因果任务的显著能力。

Dec, 2023

大型语言模型能够学习时间推理

我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM，通过将上下文翻译成时间图，教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益，并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理，观察到符号推理带来更一致可靠的结果。

Jan, 2024

用于对源代码进行大型语言模型解读的因果研究基准测试

通过引入名为 Galeras 的基准测试策略，将统计学严谨性引入 LLMs 的评估，该论文展示了因果推断评估在降低混杂偏差方面的实践成果，为分析准确度指标提供了可解释性的解决方案。

Aug, 2023

使用代码执行解锁大型语言模型的时间问答

本研究旨在探讨大型语言模型在处理复杂时间推理能力问题上的挑战，并提出了一种结合自然语言处理和逻辑推理的框架，证明了其在时间限制推理任务方面的有效性。

May, 2023

评估大型语言模型的干预推理能力

评估大型语言模型在干预作用下准确更新其对数据生成过程的知识的能力，以及对因果推断中不同因果图和变量类型的干预性推理的研究。研究结果表明，虽然 GPT-4 模型在预测干预效果方面表现出有希望的准确性，但它们对提示中的干扰因素仍然敏感。

Apr, 2024

因果推理与大型语言模型：为因果关系开辟新领域

本文探讨了大型语言模型（LLMs）的因果能力，证明它们在因果推理方面具有优越性能和独特的知识来源。同时，我们提供了技术来解释它们的鲁棒性，并认为 LLMs 可用作人类领域知识的代理以及降低因果分析中的人力成本。因此，LLMs 在推动因果研究、实践和采纳方面开辟了新的前沿。

Apr, 2023

基于约束的因果发现的大型语言模型

本文研究了大型语言模型在生成因果图方面的能力，通过将条件独立性查询作为 LLM 的提示并与 PC 算法的答案结合，提出了一种基于统计启发的投票模式来改善性能，并发现因果推理可以用于对概率查询进行合理解释，从而证明了基于知识的因果推理可能成为一种补充数据驱动因果发现的工具。

Jun, 2024

活在当下：大型语言模型能否把握同时推理？

本研究介绍了 CoTempQA，一个包含四个共时场景的 QA 基准数据集，用于评估大型语言模型的共时理解和推理能力，发现当前模型在 CoTempQA 任务上表现明显低于人类水平，甚至在采用 CoT 方法进行加强后仍然艰难。通过初步探索，发现数学推理在处理共时事件中起着重要作用，并提出了一种从数学角度提升大型语言模型共时推理的策略。希望我们的 CoTempQA 数据集能够鼓励进一步改进大型语言模型的共时推理能力。

Jun, 2024