DocMath-Eval：评估 LLMs 在理解带表格数据的长文档中的数值推理能力

Nov, 2023

DocMath-Eval：评估 LLMs 在理解带表格数据的长文档中的数值推理能力

DocMath-Eval: Evaluating Numerical Reasoning Capabilities of LLMs in Understanding Long Documents with Tabular Data

Yilun Zhao, Yitao Long, Hongjun Liu, Linyong Nan, Lyuhao Chen...

TL;DR该论文介绍了 DocMath-Eval，这是一个特意设计用于评估具有理解和分析既包含文本又包含表格的金融文件的 LLMs 的数值推理和问题解决能力的综合基准测试。我们评估了 19 个 LLMs 的广泛领域的表现，并采用不同的提示策略来全面评估现有 LLMs 在 DocMath-Eval 中的能力和局限性。我们发现，尽管目前表现最好的系统（即 GPT-4）在短文本环境下可以很好地处理简单问题，如计算金融指标的增长率，但在较长上下文中的更复杂问题上明显落后于人类专家。我们相信 DocMath-Eval 可以作为一个有价值的基准测试，用于评估 LLMs 在专家领域中解决具有挑战性的数值推理问题的能力。我们将在此 https URL 上发布该基准测试和代码。

Abstract

Recent llms have demonstrated remarkable performance in solving exam-like math word problems. However, the degree to which these numerical reasoning skills are effective in real-world scenarios, particularly in e

llms numerical reasoning problem-solving financial documents docmath-eval

发现论文，激发创造

评估金融文件问答中 LLM 的数学推理能力

通过对四个金融表问答数据集进行广泛实验，这项研究探讨了大型语言模型在数学推理、结构化表格和非结构化文本融合方面的能力。研究集中分析了模型对表格复杂度的敏感性以及随着算术推理步骤增加的性能变化。结果揭示了大型语言模型在处理半结构化表格中复杂数学场景时的能力和限制，并提出了一种针对半结构化文档的新型提示技术，其性能与其它基准线相媲美或超越，同时提供对大型语言模型在此任务中的细致理解。

Feb, 2024

KnowledgeMath: 知识密集型金融领域数学问题求解

KnowledgeMath 是一个新颖的基准，旨在评估 LLMs 在应用财务知识解决复杂数学问题方面的能力。该研究包含 1,259 个问题，结合了文本和表格内容，需要大学水平的财务领域知识进行有效解决。我们提供了以 Python 程序格式的专家注释详细解决方案，为 LLM 评估提供高质量的基准。与以往研究相比，我们评估了 14 个具有不同提示策略的 LLMs 范围。最佳系统（即 Program-of-Thoughts 的 GPT-4）仅达到 45.4% 的准确率，仍有很大的改进空间。我们相信 KnowledgeMath 可以促进未来关于领域特定知识检索和增强到数学问题解决过程中的研究。我们将在此 https URL 发布基准和代码。

Nov, 2023

MedCalc-Bench: 评估医学计算中的大型语言模型

评估医学中的大型语言模型 (LLMs) 时，与计算和基于逻辑的推理相反，当前的基准测试主要集中在涉及领域知识和描述性推理的问答上。然而，在现实世界的情况下，医生经常使用遵循定量方程和基于规则推理范例的临床计算器作为基于证据的决策支持。为此，我们提出了 MedCalc-Bench，这是一个首个针对评估 LLMs 在医学计算能力方面的数据集。MedCalc-Bench 包含了来自 55 个不同医学计算任务的 1000 多个手动审核实例的评估集。每个 MedCalc-Bench 实例包括患者记录、请求计算特定医学数值的问题、基本真相答案和逐步说明显示如何获取答案。尽管我们的评估结果显示 LLMs 在这个领域具有潜力，但它们还没有在临床环境中足够有效。常见问题包括提取错误的实体、不使用正确的方程式或规则进行计算任务，或错误地执行计算的算术操作。我们希望我们的研究能够突出 LLMs 在医学环境中的定量知识和推理差距，促进未来改进 LLMs 以用于各种临床计算任务。

Jun, 2024

MARIO Eval: 用数学评估你的数学 LLM 工具包

大语言模型（LLMs）在解决数学问题等各种推理任务中得到了探索。我们引入了一个全面的数学评估工具包，不仅利用 python 计算代数系统（CAS）进行数值精度评估，还集成了一个可选的大语言模型（LLM），以验证工具包的有效性。

Apr, 2024

探索语言模型的数值推理能力：对表格数据进行综合分析

这篇论文提出了一个层次化的数值推理技能分类法，涵盖四个级别的十多种推理类型。通过对先进模型进行全面评估，并开发了一组多样化的数值探针，论文发现在所有数值推理类型中，FlanT5（无 / 少数据）和 GPT-3.5（少数据）相对其他模型表现出强大的整体数值推理技能。标签颠倒探针表明模型经常利用数据集的特征来预测正确的标签。

Nov, 2023

财务报表的数值推理

财务报告通过分析公司的运营情况提供重要见解，但通常长度过长，约 30 至 40 页，对于动态市场的快速决策提出了挑战。为解决这个问题，我们利用经过微调的大型语言模型（LLM）从用户提出的问题中提炼关键指标和运营指标。我们设计了一种定位关键数据的方法，并利用 FinQA 数据集对 Llama-2 7B 和 T5 模型进行微调，以进行定制化问答。在最终的数值回答上取得了与基准相当的结果，在数值推理和计算上具有竞争力的准确性。

Dec, 2023

GeoEval：几何问题解决中评估 LLM 和多模型的基准

最近的大型语言模型（LLMs）和多模态模型（MMs）在问题解决方面展示了卓越的能力，但它们在解决需要对文本和图像信息进行综合理解的几何数学问题方面的熟练程度尚未得到深入评估。为了填补这一空白，我们引入了 GeoEval 基准测试，它包括一个主子集、一个重点关注逆向推理的 750 个问题子集、一个增强的 2000 个问题子集和一个困难的 300 个问题子集。这个基准测试有助于更深入地研究 LLMs 和 MMs 在解决几何数学问题方面的性能。我们对这些不同子集中的十个 LLMs 和 MMs 进行评估，发现 WizardMath 模型表现出色，在主子集上的准确率达到 55.67％，但在困难子集上只有 6.00％的准确率。这突显了对模型进行在未经预训练的数据集上测试的重要性。此外，我们的研究结果表明，GPT 系列模型在它们重新表述的问题上表现更有效，这为增强模型能力提供了有希望的方法。

Feb, 2024

MathBench：利用分层数学基准评估 LLMs 的理论和应用水平

通过 MathBench 新的基准测试，我们能够全面评估大型语言模型在数学能力方面的表现，首次提供了一个多维度视角，从基础算术到大学数学的不同阶段评估模型的能力，旨在提高对大型语言模型在数学能力方面的评估，为其知识水平和问题解决技能提供更深入的理解。

May, 2024

LLM 不是智能思考者：引入数学主题树基准评估来全面评估 LLMs

大语言模型在数学推理方面展示了令人印象深刻的能力，但目前的评估仅限于特定的数学主题，不清楚大语言模型是否真正参与了推理。为了填补这些研究空白，我们提出了数学主题树（MaTT）基准，这是一个具有挑战性和结构化的基准，提供了 1,958 个关于各种数学学科的问题，并配以详细的层级链。通过使用 MaTT 基准评估不同的大语言模型，我们发现最先进的模型 GPT-4 在多项选择场景下仅达到 54％的准确度。有趣的是，即使在使用思维链提示的情况下，我们也几乎没有观察到明显的改进。此外，当问题在没有可选项的情况下提供时，大语言模型的准确度显著下降了 24.2 个百分点。对于一系列主题的大语言模型的详细性能分析表明，即使是在相同的数学领域中的紧密相关子主题之间，也存在显着差异。为了找出大语言模型性能背后的原因，当有可选项时，我们对 GPT-4 生成的解释的完整性和准确性进行了手动评估。令人惊讶的是，在模型提供正确答案的情况下，只有 53.3％的解释被认为是完整和准确的，即模型进行了真正的推理。

Jun, 2024

LLM 是否具备基于数据的统计和因果推理能力？通过数据进行高级量化推理的基准测试

定量推理是分析数据的关键技能，本研究引入 QRData 基准，旨在评估大型语言模型对现实世界数据的统计和因果推理能力。研究在一组精心构建的数据集中评估了不同模型的定量推理能力，并发现模型在数据分析和因果推理方面存在困难，同时难以同时使用因果知识和提供的数据。

Feb, 2024