在 CFLUE 上对大型语言模型进行基准测试 —— 中文金融语言理解评估数据集

ACLMay, 2024

在 CFLUE 上对大型语言模型进行基准测试 —— 中文金融语言理解评估数据集

Benchmarking Large Language Models on CFLUE -- A Chinese Financial Language Understanding Evaluation Dataset

Jie Zhu, Junhui Li, Yalong Wen, Lifan Guo

TL;DR我们提出了中文金融语言理解评估基准 CFLUE，用于评估大型语言模型在知识评估和应用评估方面的能力。CFLUE 提供了定制的数据集，用于知识评估和应用评估，并进行了代表性大型语言模型的彻底评估。

Abstract

In light of recent breakthroughs in large language models (LLMs) that have revolutionized natural language processing (NLP), there is an urgent need for new benchmarks to keep pace with the fast development of LL

large language models chinese financial language understanding evaluation benchmarks knowledge assessment application assessment

发现论文，激发创造

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

CFBenchmark: 大型语言模型的中文金融助手基准测试

通过 CFBenchmark 评估了大型语言模型在中文金融助手中的性能，发现现有模型在金融文本处理的基本任务中仍有显著改进空间。

Nov, 2023

CLUE：一个中文语言理解评测基准

该论文介绍了第一个大规模的中文语言理解评估基准，名为 CLUE，以帮助解决英语特定的自然语言理解模型难以用于其他语言的问题，并使用 9 个最先进的中文预训练模型来报告结果，并引入了一系列辅助数据集和工具以促进中文自然语言理解技术的进一步发展。

Apr, 2020

SuperCLUE：一个全面的中文大语言模型基准

通过提出综合性的中文基准 SuperCLUE，我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况，并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。

Jul, 2023

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用 FinEval 基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023

C$^{3}$Bench：一个面向大型语言模型的综合性古代汉语理解基准

通过提出 C^3bench，我们在五个主要的古文理解任务中广泛评估了 15 个代表性大语言模型的定量性能。结果表明，现有的大语言模型在古文理解任务上仍然表现不佳，相比受监督模型仍然较差。我们相信这项研究可以为未来基于大语言模型的古文理解研究提供标准基准、全面的基线和有价值的见解。

May, 2024

CFGPT：具有大型语言模型的中文金融助手

本文介绍了一种名为 CFGPT 的中文金融预训练变换器框架，包括一个用于预训练和监督微调的数据集（CFData），一个用于管理金融文本的金融 LLM（CFLLM）和一个用于导航实际金融应用的部署框架（CFAPP）。

Sep, 2023

基于改进的传统中文评估套件的基础模型

我们发布了 TMMLU+，这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集，包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比，TMMLU + 的规模增加了六倍，学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果，这些模型的参数范围从 1.8B 到 72B 不等。我们的研究发现，传统中文模型仍然落后于其简体中文模型。此外，目前的大型语言模型在平均分上仍未超越人类表现。我们公开发布了我们的数据集和相应的基准源代码。

Mar, 2024

当流感遇上法兰：金融领域基准测试和大型预训练语言模型

本文提出了一种基于金融关键词和短语的 FLANG 模型，使用跨度边界目标和填充目标进行更好的掩盖。并且，我们还贡献了 Financial Language Understanding Evaluation（FLUE），这是一套针对金融领域的 NLP 任务的综合基准套件。在多种 NLP 任务上，我们的模型胜过了以往的文献。我们的模型、代码和基准数据都是公开的，可以在 Github 和 Huggingface 上下载使用。

Oct, 2022

KLUE: 韩语语言理解评估

介绍了韩语自然语言理解评估标准 KLUE，涵盖 8 个韩语自然语言任务。该标准通过从多种资源语料库中构建任务和数据，并注重版权保护和伦理考虑来保证对任何人的无限制性可达。提供了合适的评估方法，预训练语言模型的微调配方以及语言模型 KLUE-BERT 和 KLUE-RoBERTa 等预训练语言模型，以帮助重现 KLUE 上的基线模型并促进未来研究。KLUE 资源还可用于其他语言的创建。

May, 2021