评估金融文件问答中 LLM 的数学推理能力

Feb, 2024

评估金融文件问答中 LLM 的数学推理能力

Assessing LLMs' Mathematical Reasoning in Financial Document Question Answering

Pragya Srivastava, Manuj Malik, Tanuja Ganu

TL;DR通过对四个金融表问答数据集进行广泛实验，这项研究探讨了大型语言模型在数学推理、结构化表格和非结构化文本融合方面的能力。研究集中分析了模型对表格复杂度的敏感性以及随着算术推理步骤增加的性能变化。结果揭示了大型语言模型在处理半结构化表格中复杂数学场景时的能力和限制，并提出了一种针对半结构化文档的新型提示技术，其性能与其它基准线相媲美或超越，同时提供对大型语言模型在此任务中的细致理解。

Abstract

large language models (LLMs), excel in natural language understanding, but their capability for complex mathematical reasoning with an amalgamation of structured tables and unstructured text is uncertain. This st

large language models mathematical reasoning financial tabular question-answering sensitivity to table complexity prompting technique

发现论文，激发创造

FinLLMs：用大型语言模型生成金融推理数据集的框架

基于大型语言模型，通过使用常见的金融公式生成金融问题回答数据，FinLLMs 方法提供一种解决数据资源有限和注释成本高昂问题的方法。实验结果表明，由 FinLLMs 生成的合成数据有效地提升了金融领域几个大规模数值推理模型的性能，超过了两个常用基准金融问题回答数据集。

Jan, 2024

用大型语言模型重新思考表格数据理解

通过对大型语言模型的研究，揭示了它们在解释和推理表格数据方面的能力，发现表格结构变化对模型性能的影响，提出了表格结构归一化的方法，并且比较了文本推理和符号推理，同时通过多个推理路径的聚合，取得了在 WIKITABLEQUESTIONS 任务上的最新成果。

Dec, 2023

财务报表的数值推理

财务报告通过分析公司的运营情况提供重要见解，但通常长度过长，约 30 至 40 页，对于动态市场的快速决策提出了挑战。为解决这个问题，我们利用经过微调的大型语言模型（LLM）从用户提出的问题中提炼关键指标和运营指标。我们设计了一种定位关键数据的方法，并利用 FinQA 数据集对 Llama-2 7B 和 T5 模型进行微调，以进行定制化问答。在最终的数值回答上取得了与基准相当的结果，在数值推理和计算上具有竞争力的准确性。

Dec, 2023

大型语言模型在表格推理中的调查

使用大型语言模型 (LLMs) 改善表格推理性能是当前主流方法。本文分析了在 LLMs 时代中提升表格推理性能的主要技术以及 LLMs 相较于之前方法的优势，并提供了改进现有方法和扩展实际应用的研究方向，以激发未来表格推理研究的进一步发展。

Feb, 2024

超越分类：最先进语言模型中的财务推理

本文对大规模语言模型在金融领域中的应用进行了可行性研究，探讨了任务形式、数据生成、提示方法和评估能力等方面，发现在 6B 参数时可以生成相关的金融推理结果，并提供了名为 sFIOG 的公开数据集，以支持未来的研究。

Apr, 2023

大型语言模型是少量样本的表格推理器

本文旨在研究大型语言模型在表格相关任务中的能力，发现当结合 “思维链” 提示时，大型语言模型可以在只有 1 个样本的情况下达到与某些 SotA 模型相当的表现。

Oct, 2022

DocMath-Eval：评估 LLMs 在理解带表格数据的长文档中的数值推理能力

该论文介绍了 DocMath-Eval，这是一个特意设计用于评估具有理解和分析既包含文本又包含表格的金融文件的 LLMs 的数值推理和问题解决能力的综合基准测试。我们评估了 19 个 LLMs 的广泛领域的表现，并采用不同的提示策略来全面评估现有 LLMs 在 DocMath-Eval 中的能力和局限性。我们发现，尽管目前表现最好的系统（即 GPT-4）在短文本环境下可以很好地处理简单问题，如计算金融指标的增长率，但在较长上下文中的更复杂问题上明显落后于人类专家。我们相信 DocMath-Eval 可以作为一个有价值的基准测试，用于评估 LLMs 在专家领域中解决具有挑战性的数值推理问题的能力。我们将在此 https URL 上发布该基准测试和代码。

Nov, 2023

大型语言模型在数学推理方面的进展与挑战

数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题，并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。

Jan, 2024

关于表格问答的语言模型鲁棒性研究

通过评估 Large Language Models (LLMs) 在基于维基百科和财务报告的 Tabular Question Answering (TQA) 数据集上的表格理解能力，研究发现指令对性能有显著影响，新模型 Llama3 比之前的版本更具鲁棒性，但 WTQ 数据集存在数据污染和实际可靠性问题，需要通过结构感知自注意机制和更好处理特定领域的表格数据来改进 LLMs 的可靠性。

Jun, 2024

LLM 不是智能思考者：引入数学主题树基准评估来全面评估 LLMs

大语言模型在数学推理方面展示了令人印象深刻的能力，但目前的评估仅限于特定的数学主题，不清楚大语言模型是否真正参与了推理。为了填补这些研究空白，我们提出了数学主题树（MaTT）基准，这是一个具有挑战性和结构化的基准，提供了 1,958 个关于各种数学学科的问题，并配以详细的层级链。通过使用 MaTT 基准评估不同的大语言模型，我们发现最先进的模型 GPT-4 在多项选择场景下仅达到 54％的准确度。有趣的是，即使在使用思维链提示的情况下，我们也几乎没有观察到明显的改进。此外，当问题在没有可选项的情况下提供时，大语言模型的准确度显著下降了 24.2 个百分点。对于一系列主题的大语言模型的详细性能分析表明，即使是在相同的数学领域中的紧密相关子主题之间，也存在显着差异。为了找出大语言模型性能背后的原因，当有可选项时，我们对 GPT-4 生成的解释的完整性和准确性进行了手动评估。令人惊讶的是，在模型提供正确答案的情况下，只有 53.3％的解释被认为是完整和准确的，即模型进行了真正的推理。

Jun, 2024