Feb, 2024

LLM 是否具备基于数据的统计和因果推理能力?通过数据进行高级量化推理的基准测试

TL;DR定量推理是分析数据的关键技能,本研究引入 QRData 基准,旨在评估大型语言模型对现实世界数据的统计和因果推理能力。研究在一组精心构建的数据集中评估了不同模型的定量推理能力,并发现模型在数据分析和因果推理方面存在困难,同时难以同时使用因果知识和提供的数据。