CFBenchmark: 大型语言模型的中文金融助手基准测试
LLMs 在处理中文任务方面存在限制,该研究引入了中文指令跟踪基准(CIF-Bench),评估 LLMs 对中文语言的零射击泛化能力,并揭示出评估偏差和性能差距问题。
Feb, 2024
我们提出了中文金融语言理解评估基准 CFLUE,用于评估大型语言模型在知识评估和应用评估方面的能力。CFLUE 提供了定制的数据集,用于知识评估和应用评估,并进行了代表性大型语言模型的彻底评估。
May, 2024
介绍了基于 T5 模型的新型 BBT-FinT5 中文金融预训练语言模型,同时构建了大规模金融语料库 BBT-FinCorpus 并提出了中文金融语言理解与生成评估基准 BBT-CFLEB 以促进金融领域自然语言处理研究。
Feb, 2023
本研究介绍了 FoundaBench,这是一个旨在严格评估中国语言和文化定制的大型语言模型的基础知识能力的开创性基准。使用 FoundaBench 对 12 个最先进的语言模型进行了全面评估,结果表明在中文语料库上预训练的模型性能更优,同时发现模型的推理和记忆能力存在显著差异。FoundaBench 评估得出的见解为理解大型语言模型的基础知识奠定了新的标准,为未来领域的进展提供了一个强大的框架。
Apr, 2024
本文介绍了一种名为 CFGPT 的中文金融预训练变换器框架,包括一个用于预训练和监督微调的数据集(CFData),一个用于管理金融文本的金融 LLM(CFLLM)和一个用于导航实际金融应用的部署框架(CFAPP)。
Sep, 2023
通过引入 FinBen 综合开放式评估基准,本文对 15 个具有代表性的 LLMs 进行评估,揭示了它们在金融领域的优势和局限性,找出了需要有针对性增强的方面。
Feb, 2024
使用 FinEval 基准测试,评估了当前中文和英文大型语言模型在金融领域知识方面的表现,结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度,表明大型语言模型在金融领域知识方面具有显著的增长潜力。
Aug, 2023
通过提出 C^3bench,我们在五个主要的古文理解任务中广泛评估了 15 个代表性大语言模型的定量性能。结果表明,现有的大语言模型在古文理解任务上仍然表现不佳,相比受监督模型仍然较差。我们相信这项研究可以为未来基于大语言模型的古文理解研究提供标准基准、全面的基线和有价值的见解。
May, 2024
我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力,我们将法学硕士的法律能力分为三个层次:基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估,主要关注基本法律自然语言处理能力。评估结果显示,尽管一些法学硕士在性能上优于它们的基础模型,但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。
Oct, 2023
计算机科学(CS)是人类智能复杂性的证明,深刻推动了人工智能和现代社会的发展。我们引入 CS-Bench,这是第一个专门用于评估 LLM 在计算机科学领域性能的双语(中英文)基准,包括大约 5K 个精心策划的测试样本,涵盖计算机科学的 4 个关键领域的 26 个子领域,包括各种任务形式和知识推理的划分。利用 CS-Bench,我们对 30 多个主流 LLM 进行了全面评估,揭示了 CS 性能与模型规模之间的关系,并定量分析了现有 LLM 失败的原因,并强调了知识补充和 CS 特定推理等改进方向。进一步的跨能力实验显示 LLM 在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外,专注于数学和编码的专家 LLM 在几个 CS 子领域也表现出强大的性能。展望未来,我们预见 CS-Bench 将成为 LLM 在 CS 领域应用的基石,并为评估 LLM 的多样化推理能力开辟新的途径。CS-Bench 的数据和评估代码可在此 https URL 上找到。
Jun, 2024