FinanceBench: 金融问题回答的新基准
评估金融推理能力的基准和挑战性问题 BizBench,通过三个财务领域的代码生成任务对大型语言模型进行了全面深入的评估,并表明 BizBench 是金融和商业领域量化推理的一个具有挑战性的基准模型。
Nov, 2023
使用 FinEval 基准测试,评估了当前中文和英文大型语言模型在金融领域知识方面的表现,结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度,表明大型语言模型在金融领域知识方面具有显著的增长潜力。
Aug, 2023
金融分析是评估公司绩效的重要工具,而金融问题回答是需要对数字进行深入推理的问答任务。最近的研究发现,使用大型语言模型如 GPT-3 进行财务领域的推理仍需要相关事实的检索模型和逻辑引擎,特别是由于金融问题的精确性和金融文档中存储的复杂信息。在此基础上,我们在 GPT-3 上采用改进的提示工程方法,实现了接近最先进的准确性,而无需进行任何精调。
Jul, 2023
该文介绍了基于 DeBERTa 预训练语言模型的金融问答系统在 FinQA 挑战赛中的应用,通过多模型融合和训练集组合等优化方法,输出准确度达到 68.99,程序准确度达到 64.53,排名第四。
Jul, 2022
大型语言模型在法律领域的能力评估中,提出了全面评估基准 LawBench,并经过广泛测试发现 GPT-4 是在法律领域表现最好的模型,但还有很大提升空间。
Sep, 2023
KnowledgeMath 是一个新颖的基准,旨在评估 LLMs 在应用财务知识解决复杂数学问题方面的能力。该研究包含 1,259 个问题,结合了文本和表格内容,需要大学水平的财务领域知识进行有效解决。我们提供了以 Python 程序格式的专家注释详细解决方案,为 LLM 评估提供高质量的基准。与以往研究相比,我们评估了 14 个具有不同提示策略的 LLMs 范围。最佳系统(即 Program-of-Thoughts 的 GPT-4)仅达到 45.4% 的准确率,仍有很大的改进空间。我们相信 KnowledgeMath 可以促进未来关于领域特定知识检索和增强到数学问题解决过程中的研究。我们将在此 https URL 发布基准和代码。
Nov, 2023
本文介绍了 BloombergGPT, 这是一个在大量金融数据上训练得到的具有 500 亿参数的语言模型。通过使用混合数据集进行训练,我们得到的模型不仅在金融任务上表现出色,还在普遍的 LLM 基准测试上得到了不错的表现,同时也解释了模型构建、训练过程和评估方法。
Mar, 2023
LLMs 在各领域越来越普及,因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题,作者提出了 psybench,这是第一个详尽覆盖研究领域所需知识的全面中文评估套件,通过多项选择题深入评估模型在心理学中的优势和劣势,并发现不同领域的性能存在显著差异,展示了测试集中知识不均衡可能导致结果偏斜的风险,仅 ChatGPT 模型的平均准确率超过 70%,表明仍有很大的改进空间。总之,psybench 将有助于对基本模型的优势和劣势进行全面评估,并在心理学领域的实际应用中提供支持。
Nov, 2023
为了解决金融领域中财务报表分析的难题,本文提出了一个新的数据集 FinQA,并进行了广泛的实验。实验结果显示预训练模型在金融知识和复杂多步骤的数值推理方面远远不及专家人类。这个新的数据集应该为复杂应用领域的深入研究提供了可能性。
Sep, 2021
本文提出了一种基于金融关键词和短语的 FLANG 模型,使用跨度边界目标和填充目标进行更好的掩盖。并且,我们还贡献了 Financial Language Understanding Evaluation(FLUE),这是一套针对金融领域的 NLP 任务的综合基准套件。在多种 NLP 任务上,我们的模型胜过了以往的文献。我们的模型、代码和基准数据都是公开的,可以在 Github 和 Huggingface 上下载使用。
Oct, 2022