FinBen: 大型语言模型的全面金融基准

Feb, 2024

FinBen: 大型语言模型的全面金融基准

The FinBen: An Holistic Financial Benchmark for Large Language Models

Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang...

TL;DR通过引入 FinBen 综合开放式评估基准，本文对 15 个具有代表性的 LLMs 进行评估，揭示了它们在金融领域的优势和局限性，找出了需要有针对性增强的方面。

Abstract

llms have transformed NLP and shown promise in various fields, yet their potential in finance is underexplored due to a lack of thorough evaluations and the complexity of →

llms finance evaluation benchmark finben financial tasks

发现论文，激发创造

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用 FinEval 基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023

FinanceBench: 金融问题回答的新基准

FinanceBench 是一个对 LLMs 在开放式财务问答（QA）中性能评估的首个测试套件，通过对公开交易公司的 10,231 个问题进行测试，发现现有的 LLMs 在财务 QA 方面存在明显的局限性。

Nov, 2023

超越分类：最先进语言模型中的财务推理

本文对大规模语言模型在金融领域中的应用进行了可行性研究，探讨了任务形式、数据生成、提示方法和评估能力等方面，发现在 6B 参数时可以生成相关的金融推理结果，并提供了名为 sFIOG 的公开数据集，以支持未来的研究。

Apr, 2023

金融知识大语言模型

人工智能在金融行业取得了重大进展，通过自动化复杂任务、增强客户服务和提供详细的金融分析等方式改变了数据的处理和解释方式。本研究提出了 IDEA-FinBench、IDEA-FinKER 和 IDEA-FinQA，分别针对大型语言模型在金融领域的应用所进行的评估基准、知识增强框架和基于问答系统的应用方案。

Jun, 2024

FinLLMs：用大型语言模型生成金融推理数据集的框架

基于大型语言模型，通过使用常见的金融公式生成金融问题回答数据，FinLLMs 方法提供一种解决数据资源有限和注释成本高昂问题的方法。实验结果表明，由 FinLLMs 生成的合成数据有效地提升了金融领域几个大规模数值推理模型的性能，超过了两个常用基准金融问题回答数据集。

Jan, 2024

BizBench：商业和金融的定量推理基准

评估金融推理能力的基准和挑战性问题 BizBench，通过三个财务领域的代码生成任务对大型语言模型进行了全面深入的评估，并表明 BizBench 是金融和商业领域量化推理的一个具有挑战性的基准模型。

Nov, 2023

BloombergGPT: 金融领域的大型语言模型

本文介绍了 BloombergGPT，这是一个在大量金融数据上训练得到的具有 500 亿参数的语言模型。通过使用混合数据集进行训练，我们得到的模型不仅在金融任务上表现出色，还在普遍的 LLM 基准测试上得到了不错的表现，同时也解释了模型构建、训练过程和评估方法。

Mar, 2023

大型语言模型的日本金融基准构建

本研究通过构建多个特定于日本和金融领域的任务基准和测量，确认 GPT-4 模型在所有性能范围内表现优异，并验证了该基准评估方法的有效性。

Mar, 2024

ChatGPT 是否是金融专家？对语言模型在金融自然语言处理的评估

使用 FinLMEval 框架评估了大型语言模型在金融领域中的能力，并发现虽然一些只有解码器的 LLM 在大多数金融任务中表现出色，尤其是通过零 - shot 提示，但它们在处理专有数据集时通常落后于经过精调的专家模型。该研究为在金融领域构建更高级别的 LLMs 提供了基础评估。

Oct, 2023

金融领域大型语言模型综述

金融领域的大型语言模型（LLMs）较少研究，本文综述了金融 LLMs 的历史、技术、性能、机遇和挑战，包括训练方法、训练数据和性能评估等关键点。

Feb, 2024