Jun, 2023

大型语言模型是否能从相关性中推断因果关系?

TL;DR这篇论文提出了一个新的任务Corr2Cause和一个数据集来评估大型语言模型(LLMs)的纯因果推理能力,并表明这些模型的因果推理能力很不足,尽管通过fine-tuning可以部分缓解这个问题,但它们仍不能在变量的名称和文本表达在测试集中不同的情况下泛化推理。