CFinBench：大型语言模型的全面中文金融基准

Jul, 2024

CFinBench：大型语言模型的全面中文金融基准

CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models

Ying Nie, Binwei Yan, Tianyu Guo, Hao Liu, Haoyu Wang...

TL;DR提出了 CFinBench：一个经过精心设计的，迄今为止最全面的评估基准，用于评估大型语言模型在中国金融领域的金融知识，包括财务学科、金融资格、金融实践和金融法律等四个一级类别。实验结果表明，GPT4 和一些面向中文的模型在 CFinBench 中取得最佳性能，平均准确率高达 60.16%。

Abstract

large language models (LLMs) have achieved remarkable performance on various NLP tasks, yet their potential in more challenging and domain-specific task, such as finance, has not been fully explored. In this pape

large language models finance cfinbench evaluation benchmark financial knowledge

发现论文，激发创造

CFBenchmark: 大型语言模型的中文金融助手基准测试

通过 CFBenchmark 评估了大型语言模型在中文金融助手中的性能，发现现有模型在金融文本处理的基本任务中仍有显著改进空间。

Nov, 2023

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用 FinEval 基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023

FinBen: 大型语言模型的全面金融基准

通过引入 FinBen 综合开放式评估基准，本文对 15 个具有代表性的 LLMs 进行评估，揭示了它们在金融领域的优势和局限性，找出了需要有针对性增强的方面。

Feb, 2024

FoundaBench: 评估大型语言模型在中文基础知识能力上的表现

本研究介绍了 FoundaBench，这是一个旨在严格评估中国语言和文化定制的大型语言模型的基础知识能力的开创性基准。使用 FoundaBench 对 12 个最先进的语言模型进行了全面评估，结果表明在中文语料库上预训练的模型性能更优，同时发现模型的推理和记忆能力存在显著差异。FoundaBench 评估得出的见解为理解大型语言模型的基础知识奠定了新的标准，为未来领域的进展提供了一个强大的框架。

Apr, 2024

在 CFLUE 上对大型语言模型进行基准测试 —— 中文金融语言理解评估数据集

我们提出了中文金融语言理解评估基准 CFLUE，用于评估大型语言模型在知识评估和应用评估方面的能力。CFLUE 提供了定制的数据集，用于知识评估和应用评估，并进行了代表性大型语言模型的彻底评估。

May, 2024

BBT-Fin: 中国金融领域预训练语言模型、语料库和基准的全面构建

介绍了基于 T5 模型的新型 BBT-FinT5 中文金融预训练语言模型，同时构建了大规模金融语料库 BBT-FinCorpus 并提出了中文金融语言理解与生成评估基准 BBT-CFLEB 以促进金融领域自然语言处理研究。

Feb, 2023

CIF-Bench：一个用于评估大型语言模型通用性的中文指令遵循基准

LLMs 在处理中文任务方面存在限制，该研究引入了中文指令跟踪基准（CIF-Bench），评估 LLMs 对中文语言的零射击泛化能力，并揭示出评估偏差和性能差距问题。

Feb, 2024

超级 CLUE-Fin：对中文金融 LLM 进行多样化金融任务和应用的分级细粒度分析

SuperCLUE-Fin 是专为中文金融大型语言模型（FLMs）设计的评估框架，通过六个金融应用领域和 25 个专业任务对 FLMs 进行评估，包括合规性，风险管理和投资分析等理论知识和实际应用。SC-Fin 可帮助改善 FLMs 在中国金融领域的性能和可用性，推动人工智能在这一领域的发展和负责任的应用。

Apr, 2024

FinanceBench: 金融问题回答的新基准

FinanceBench 是一个对 LLMs 在开放式财务问答（QA）中性能评估的首个测试套件，通过对公开交易公司的 10,231 个问题进行测试，发现现有的 LLMs 在财务 QA 方面存在明显的局限性。

Nov, 2023

LAiW：中国法律大型语言模型基准（技术报告）

我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力，我们将法学硕士的法律能力分为三个层次：基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估，主要关注基本法律自然语言处理能力。评估结果显示，尽管一些法学硕士在性能上优于它们的基础模型，但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。

Oct, 2023