用于对源代码进行大型语言模型解读的因果研究基准测试

Aug, 2023

用于对源代码进行大型语言模型解读的因果研究基准测试

Benchmarking Causal Study to Interpret Large Language Models for Source Code

Daniel Rodriguez-Cardenas, David N. Palacio, Dipin Khati, Henry Burke, Denys Poshyvanyk

TL;DR通过引入名为 Galeras 的基准测试策略，将统计学严谨性引入 LLMs 的评估，该论文展示了因果推断评估在降低混杂偏差方面的实践成果，为分析准确度指标提供了可解释性的解决方案。

Abstract

One of the most common solutions adopted by software researchers to address code generation is by training large language models (LLMs) on massive amounts of source code. Although a number of studies have shown t

large language models code generation causal inference benchmarking strategy interpretability

发现论文，激发创造

基于大型语言模型的代码生成的基准测试与解释：一种因果关系为中心的方法

基于因果分析的方法用于系统地分析大语言模型（LLMs）输入提示与生成代码之间的因果关系，研究结果展示了该技术在提供 LLMs 有效性方面的潜力，并帮助最终用户理解预测，同时提供改进 LLMs 生成代码质量的可操作见解。

Oct, 2023

用于因果决策的大型语言模型

通过对开源大语言模型进行微调，我们提出了 LLM4Causal，它能够识别因果任务、执行相应的函数并解释其数值结果，同时我们还提出了一种数据生成过程，用于更可控的 GPT 提示，并提供了两个指令微调数据集：因果检索基准和因果解释基准。通过三个案例研究，我们展示了 LLM4Causal 能够为因果问题提供端到端的解决方案并提供易于理解的答案。数值研究还显示，它在给定查询时具有寻找正确因果任务的显著能力。

Dec, 2023

大型语言模型是否能从相关性中推断因果关系？

这篇论文提出了一个新的任务 Corr2Cause 和一个数据集来评估大型语言模型（LLMs）的纯因果推理能力，并表明这些模型的因果推理能力很不足，尽管通过 fine-tuning 可以部分缓解这个问题，但它们仍不能在变量的名称和文本表达在测试集中不同的情况下泛化推理。

Jun, 2023

大型语言模型与协作中的因果推断：综合调查

因果推断在捕捉变量之间的因果关系方面显示出在增强自然语言处理模型的预测准确性、公平性、鲁棒性和解释性方面的潜力。生成大型语言模型在通过其先进的推理能力显著影响各种自然语言处理领域的同时，这篇综述从因果的角度对生成大型语言模型进行评估和改进，从而理解和提高生成大型语言模型的推理能力，解决公平性和安全性问题，提供解释支持，并处理多模态数据。与此同时，生成大型语言模型强大的推理能力可以推动因果推断领域的发展，帮助发现因果关系和因果效应估计。本综述旨在探索因果推断框架和生成大型语言模型之间的相互作用，强调它们共同潜力以进一步开发更高级、更公平的人工智能系统。

Mar, 2024

CausalBench: 大型语言模型因果学习能力的综合评估

本研究提出了一个全面的基准测试系统 CausalBench，旨在评估大型语言模型在理解因果关系方面的能力。通过包含三个与因果学习相关的任务，并结合不同难度的任务场景，该系统能够方便地比较多种大型语言模型与经典因果学习算法的性能。研究利用 CausalBench 评估了 19 种领先的大型语言模型，揭示了它们在各个方面的优势和弱点，并定量地探索了它们在不同场景中能力的上限。此外，研究还定量地呈现了不同信息源之间的差异，并揭示了大型语言模型在文本上下文和数值领域中对因果理解能力的差距。

Apr, 2024

因果推理与大型语言模型：为因果关系开辟新领域

本文探讨了大型语言模型（LLMs）的因果能力，证明它们在因果推理方面具有优越性能和独特的知识来源。同时，我们提供了技术来解释它们的鲁棒性，并认为 LLMs 可用作人类领域知识的代理以及降低因果分析中的人力成本。因此，LLMs 在推动因果研究、实践和采纳方面开辟了新的前沿。

Apr, 2023

评估大型语言模型的干预推理能力

评估大型语言模型在干预作用下准确更新其对数据生成过程的知识的能力，以及对因果推断中不同因果图和变量类型的干预性推理的研究。研究结果表明，虽然 GPT-4 模型在预测干预效果方面表现出有希望的准确性，但它们对提示中的干扰因素仍然敏感。

Apr, 2024

CausalGym: 在语言任务上基准测试因果解释方法

语言模型对于心理语言学研究具有重要作用，该研究提出了 CausalGym 框架，通过评估多种解释性方法的因果有效性来研究语言模型的行为，并发现 DAS 方法在性能上优于其他方法。在此基础上，用 pythia 模型研究了负极性项许可和填充 - 间隙依赖这两个困难的语言现象，并分析表明这两个任务的实现机制是通过离散阶段学习而非逐渐学习。

Feb, 2024

从查询工具到因果架构：利用大型语言模型从数据中进行先进的因果发现

本文提出了一种结合基于知识的 LLMs 因果分析和数据驱动因果结构学习的新框架，以构建因果结构学习的新范式，并介绍了一套广泛的提示组，以从给定变量中提取因果图，并评估 LLM 先前因果对从数据中恢复因果结构的影响

Jun, 2023

代码生成中使用的提示的质量评估

评估大型语言模型在代码生成方面的效果时，需要使用健全的基准测试，而不严谨的评估基准会提供虚假的性能表现。本研究分析了 9 个代码生成基准中的 3,566 个提示，以确定其中的质量问题，并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于 Python 和编码练习，且缺乏上下文依赖关系，同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高 Python 代码生成的性能，但对 Java 代码生成的改进不明显。此外，还发现 GPT-3.5-Turbo 和 CodeGen-2.5 模型可能存在数据污染问题。

Apr, 2024