BizBench：商业和金融的定量推理基准

Nov, 2023

BizBench：商业和金融的定量推理基准

BizBench: A Quantitative Reasoning Benchmark for Business and Finance

Rik Koncel-Kedziorski, Michael Krumdick, Viet Lai, Varshini Reddy, Charles Lovering...

TL;DR评估金融推理能力的基准和挑战性问题 BizBench，通过三个财务领域的代码生成任务对大型语言模型进行了全面深入的评估，并表明 BizBench 是金融和商业领域量化推理的一个具有挑战性的基准模型。

Abstract

As large language models (LLMs) impact a growing number of complex domains, it is becoming increasingly important to have fair, accurate, and rigorous evaluation benchmarks. Evaluating the reasoning skills requir

large language models evaluation benchmarks bizbench financial reasoning quantitative reasoning

发现论文，激发创造

FinanceBench: 金融问题回答的新基准

FinanceBench 是一个对 LLMs 在开放式财务问答（QA）中性能评估的首个测试套件，通过对公开交易公司的 10,231 个问题进行测试，发现现有的 LLMs 在财务 QA 方面存在明显的局限性。

Nov, 2023

BIBench：大型语言模型的数据分析知识基准测试

为了评估大型语言模型（LLMs）在商业情报领域中数据分析能力方面的表现，研究引入了 BIBench，一种全面的基准测试。BIBench 评估 LLMs 在商业情报基础知识、知识应用和技术技能三个维度上的能力，并且包含 11 个子任务。另外，研究还开发了 BIChat，一个包含百万个数据点的领域特定数据集，用于对 LLMs 进行优化。通过提供一种对 LLMs 能力进行深入分析的度量标准，BIBench 旨在推动 LLMs 在数据分析领域的发展。

Jan, 2024

FinBen: 大型语言模型的全面金融基准

通过引入 FinBen 综合开放式评估基准，本文对 15 个具有代表性的 LLMs 进行评估，揭示了它们在金融领域的优势和局限性，找出了需要有针对性增强的方面。

Feb, 2024

LegalBench：一个协作构建的基准测试，用于评估大型语言模型在法律推理方面的表现

介绍了 LegalBench，对 20 个开源和商业的大型语言模型进行了实证评估，并展示了 LegalBench 所提供的研究探索类型。

Aug, 2023

财务报表的数值推理

财务报告通过分析公司的运营情况提供重要见解，但通常长度过长，约 30 至 40 页，对于动态市场的快速决策提出了挑战。为解决这个问题，我们利用经过微调的大型语言模型（LLM）从用户提出的问题中提炼关键指标和运营指标。我们设计了一种定位关键数据的方法，并利用 FinQA 数据集对 Llama-2 7B 和 T5 模型进行微调，以进行定制化问答。在最终的数值回答上取得了与基准相当的结果，在数值推理和计算上具有竞争力的准确性。

Dec, 2023

FinQA: 金融数据上的数值推理数据集

为了解决金融领域中财务报表分析的难题，本文提出了一个新的数据集 FinQA，并进行了广泛的实验。实验结果显示预训练模型在金融知识和复杂多步骤的数值推理方面远远不及专家人类。这个新的数据集应该为复杂应用领域的深入研究提供了可能性。

Sep, 2021

SciBench：评估大规模语言模型的大学科学问题解决能力

最近大型语言模型 (LLM) 在许多数学基准上取得显著进展，但大多数基准只涉及初高中科目的问题和多项选择题，且仅限于有限范围的基本算术操作。为解决这些问题，本文引入了一个广泛的基准套件 SciBench，旨在系统地检验复杂科学问题解决所需的推理能力。SciBench 包含两个精心策划的数据集：一个开放集，包含从数学、化学和物理教科书中提取的多领域的大学级科学问题；一个封闭集，包含了计算机科学和数学本科考试中的问题。基于这两个数据集，我们对两个代表性 LLM 进行了深入的基准研究，采用多种提示策略。结果表明，当前 LLM 的表现不尽如人意，综合得分仅为 35.80%。此外，通过详细的用户研究，我们将 LLM 的错误归类为十种问题解决能力。我们的分析表明，没有一种单一的提示策略明显优于其他策略，而且一些策略在某些问题解决技能上的提高会导致其他技能下降。我们预计 SciBench 将催生 LLM 的推理能力进一步发展，从而最终促进科学研究和发现。

Jul, 2023

ConvFinQA：探索在金融问答中的数字推理链

本研究旨在探讨大规模预训练语言模型在金融领域中实现数值推理的挑战，提出了一个新的大规模数据集 ConvFinQA，对其进行了综合性实验和分析，为研究实际世界中复杂推理任务提供新的资源。

Oct, 2022

LLM 是否具备基于数据的统计和因果推理能力？通过数据进行高级量化推理的基准测试

定量推理是分析数据的关键技能，本研究引入 QRData 基准，旨在评估大型语言模型对现实世界数据的统计和因果推理能力。研究在一组精心构建的数据集中评估了不同模型的定量推理能力，并发现模型在数据分析和因果推理方面存在困难，同时难以同时使用因果知识和提供的数据。

Feb, 2024

AQA-Bench：一个用于评估 LLMs 顺序推理能力的互动基准

该研究介绍了 AQA-Bench，这是一个评估大规模语言模型在算法环境中的顺序推理能力的新型基准。我们的评估基准的关键特点在于其互动评估协议，通过深度优先搜索等算法，每个节点的连接边的可用性取决于模型对该节点的遍历方式，从而需要 LLM 有效地记住访问过的节点并策略性地进行后续移动。我们全面构建了 AQA-Bench，并使用二分搜索、深度优先搜索和广度优先搜索来评估 12 个不同 LLM 的顺序推理能力。我们的研究发现了一些有趣的结果：（1）像 GPT-4 和 Gemini 这样的闭源模型通常表现出较强的顺序推理能力，明显优于开源 LLM。（2）提供简单的交互式示例可能会无意中损害少样本性能。（3）在遵循最优策略的前继步骤数量非常有限的情况下，可以大幅提升小模型的性能。（4）性能和模型大小之间的缩放相关性并不总是显著的，有时甚至显示出相反的趋势。我们希望我们的研究能推动未来对于推进对 LLM 顺序推理能力的理解和增强的研究。代码可在链接 https URL 找到。

Feb, 2024