FinBen: 大型语言模型的全面金融基准
使用 FinEval 基准测试,评估了当前中文和英文大型语言模型在金融领域知识方面的表现,结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度,表明大型语言模型在金融领域知识方面具有显著的增长潜力。
Aug, 2023
FinanceBench 是一个对 LLMs 在开放式财务问答(QA)中性能评估的首个测试套件,通过对公开交易公司的 10,231 个问题进行测试,发现现有的 LLMs 在财务 QA 方面存在明显的局限性。
Nov, 2023
本文对大规模语言模型在金融领域中的应用进行了可行性研究,探讨了任务形式、数据生成、提示方法和评估能力等方面,发现在 6B 参数时可以生成相关的金融推理结果,并提供了名为 sFIOG 的公开数据集,以支持未来的研究。
Apr, 2023
人工智能在金融行业取得了重大进展,通过自动化复杂任务、增强客户服务和提供详细的金融分析等方式改变了数据的处理和解释方式。本研究提出了 IDEA-FinBench、IDEA-FinKER 和 IDEA-FinQA,分别针对大型语言模型在金融领域的应用所进行的评估基准、知识增强框架和基于问答系统的应用方案。
Jun, 2024
基于大型语言模型,通过使用常见的金融公式生成金融问题回答数据,FinLLMs 方法提供一种解决数据资源有限和注释成本高昂问题的方法。实验结果表明,由 FinLLMs 生成的合成数据有效地提升了金融领域几个大规模数值推理模型的性能,超过了两个常用基准金融问题回答数据集。
Jan, 2024
评估金融推理能力的基准和挑战性问题 BizBench,通过三个财务领域的代码生成任务对大型语言模型进行了全面深入的评估,并表明 BizBench 是金融和商业领域量化推理的一个具有挑战性的基准模型。
Nov, 2023
本文介绍了 BloombergGPT, 这是一个在大量金融数据上训练得到的具有 500 亿参数的语言模型。通过使用混合数据集进行训练,我们得到的模型不仅在金融任务上表现出色,还在普遍的 LLM 基准测试上得到了不错的表现,同时也解释了模型构建、训练过程和评估方法。
Mar, 2023
使用 FinLMEval 框架评估了大型语言模型在金融领域中的能力,并发现虽然一些只有解码器的 LLM 在大多数金融任务中表现出色,尤其是通过零 - shot 提示,但它们在处理专有数据集时通常落后于经过精调的专家模型。该研究为在金融领域构建更高级别的 LLMs 提供了基础评估。
Oct, 2023