FinanceBench: 金融问题回答的新基准

Nov, 2023

FinanceBench: 金融问题回答的新基准

FinanceBench: A New Benchmark for Financial Question Answering

Pranab Islam, Anand Kannappan, Douwe Kiela, Rebecca Qian, Nino Scherrer...

TL;DRFinanceBench 是一个对 LLMs 在开放式财务问答（QA）中性能评估的首个测试套件，通过对公开交易公司的 10,231 个问题进行测试，发现现有的 LLMs 在财务 QA 方面存在明显的局限性。

Abstract

financebench is a first-of-its-kind test suite for evaluating the performance of llms on open book financial question answering (QA). It c

financebench llms question answering financial qa limitations

发现论文，激发创造

BizBench：商业和金融的定量推理基准

评估金融推理能力的基准和挑战性问题 BizBench，通过三个财务领域的代码生成任务对大型语言模型进行了全面深入的评估，并表明 BizBench 是金融和商业领域量化推理的一个具有挑战性的基准模型。

Nov, 2023

FinBen: 大型语言模型的全面金融基准

通过引入 FinBen 综合开放式评估基准，本文对 15 个具有代表性的 LLMs 进行评估，揭示了它们在金融领域的优势和局限性，找出了需要有针对性增强的方面。

Feb, 2024

FinTextQA：长文本金融问答数据集

该研究介绍了 FinTextQA，这是一个用于金融领域长篇问答的创新数据集，并开发了一个基于 RAG 的 LFQA 系统，通过多角度评估方法得出了在噪声环境下不同配置的 LFQA 系统的性能表现和模型对噪声的容忍度。

May, 2024

FinTruthQA：评估金融信息披露质量的基准数据集

建立了一个名为 FinTruthQA 的基准，用于自动评估金融问答数据中信息披露质量，为会计和金融领域的技术研究和数据驱动的决策提供了坚实的基础。

Jun, 2024

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用 FinEval 基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023

GPT-3 模型是小样本金融推理器

金融分析是评估公司绩效的重要工具，而金融问题回答是需要对数字进行深入推理的问答任务。最近的研究发现，使用大型语言模型如 GPT-3 进行财务领域的推理仍需要相关事实的检索模型和逻辑引擎，特别是由于金融问题的精确性和金融文档中存储的复杂信息。在此基础上，我们在 GPT-3 上采用改进的提示工程方法，实现了接近最先进的准确性，而无需进行任何精调。

Jul, 2023

一种基于 DeBERTa 的新型金融问答模型

该文介绍了基于 DeBERTa 预训练语言模型的金融问答系统在 FinQA 挑战赛中的应用，通过多模型融合和训练集组合等优化方法，输出准确度达到 68.99，程序准确度达到 64.53，排名第四。

Jul, 2022

金融知识大语言模型

人工智能在金融行业取得了重大进展，通过自动化复杂任务、增强客户服务和提供详细的金融分析等方式改变了数据的处理和解释方式。本研究提出了 IDEA-FinBench、IDEA-FinKER 和 IDEA-FinQA，分别针对大型语言模型在金融领域的应用所进行的评估基准、知识增强框架和基于问答系统的应用方案。

Jun, 2024

LawBench：大型语言模型法律知识基准评估

大型语言模型在法律领域的能力评估中，提出了全面评估基准 LawBench，并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型，但还有很大提升空间。

Sep, 2023

FinLLMs：用大型语言模型生成金融推理数据集的框架

基于大型语言模型，通过使用常见的金融公式生成金融问题回答数据，FinLLMs 方法提供一种解决数据资源有限和注释成本高昂问题的方法。实验结果表明，由 FinLLMs 生成的合成数据有效地提升了金融领域几个大规模数值推理模型的性能，超过了两个常用基准金融问题回答数据集。

Jan, 2024