C$^{3}$Bench：一个面向大型语言模型的综合性古代汉语理解基准

May, 2024

C$^{3}$Bench：一个面向大型语言模型的综合性古代汉语理解基准

C$^{3}$Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models

Jiahuan Cao, Yongxin Shi, Dezhi Peng, Yang Liu, Lianwen Jin

TL;DR通过提出 C^3bench，我们在五个主要的古文理解任务中广泛评估了 15 个代表性大语言模型的定量性能。结果表明，现有的大语言模型在古文理解任务上仍然表现不佳，相比受监督模型仍然较差。我们相信这项研究可以为未来基于大语言模型的古文理解研究提供标准基准、全面的基线和有价值的见解。

Abstract

classical chinese understanding (CCU) holds significant value in preserving and exploration of the outstanding traditional Chinese culture. Recently, researchers have attempted to leverage the potential of large languag

classical chinese understanding large language models c^3bench ccu tasks llm-based ccu research

发现论文，激发创造

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

推进传统中文语言模型的评估：朝着综合基准套件迈进

评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试，利用现有的英文数据集，并专门针对评估传统汉语语言模型进行调整，包括问答、摘要、分类和表格理解等任务。评估结果表明，我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究，我们已经开源了我们的基准测试并开放了模型供试用。

Sep, 2023

CS-Bench: 大型语言模型的全面基准，助力计算机科学掌握

计算机科学（CS）是人类智能复杂性的证明，深刻推动了人工智能和现代社会的发展。我们引入 CS-Bench，这是第一个专门用于评估 LLM 在计算机科学领域性能的双语（中英文）基准，包括大约 5K 个精心策划的测试样本，涵盖计算机科学的 4 个关键领域的 26 个子领域，包括各种任务形式和知识推理的划分。利用 CS-Bench，我们对 30 多个主流 LLM 进行了全面评估，揭示了 CS 性能与模型规模之间的关系，并定量分析了现有 LLM 失败的原因，并强调了知识补充和 CS 特定推理等改进方向。进一步的跨能力实验显示 LLM 在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外，专注于数学和编码的专家 LLM 在几个 CS 子领域也表现出强大的性能。展望未来，我们预见 CS-Bench 将成为 LLM 在 CS 领域应用的基石，并为评估 LLM 的多样化推理能力开辟新的途径。CS-Bench 的数据和评估代码可在此 https URL 上找到。

Jun, 2024

TCMBench：中医药领域大型语言模型综合评估基准

介绍了 TCM-Bench 综合评估 TCM 中大型语言模型性能的基准，提出了 TCMScore 作为评估 TCM 问题回答质量的指标，并从不同角度进行了综合实验分析，突出了大型语言模型在 TCM 领域的能力和局限性。

Jun, 2024

逐九：为大型语言模型提供的多维多面的中文基准测试

大语言模型的综合性和准确性评估需要全面而系统的基准。为此，我们提出了 ZhuJiu 基准，具有综合评估大语言模型的多维能力覆盖，多方面合作评估方法，全面的中文基准以及避免潜在数据泄漏的特点。我们对 10 个当前主流大语言模型进行了评估，并对结果进行了深入的讨论和分析。

Aug, 2023

在 CFLUE 上对大型语言模型进行基准测试 —— 中文金融语言理解评估数据集

我们提出了中文金融语言理解评估基准 CFLUE，用于评估大型语言模型在知识评估和应用评估方面的能力。CFLUE 提供了定制的数据集，用于知识评估和应用评估，并进行了代表性大型语言模型的彻底评估。

May, 2024

CFinBench：大型语言模型的全面中文金融基准

提出了 CFinBench：一个经过精心设计的，迄今为止最全面的评估基准，用于评估大型语言模型在中国金融领域的金融知识，包括财务学科、金融资格、金融实践和金融法律等四个一级类别。实验结果表明，GPT4 和一些面向中文的模型在 CFinBench 中取得最佳性能，平均准确率高达 60.16%。

Jul, 2024

CMMU：中文多模态多类型问题理解与推理基准

多模态大型语言模型在理解和推理能力方面取得了显著进展，但领域专有知识的掌握仍然是一个挑战。因此，作者提出了一个名为 CMMU 的新型基准，用于测试多模态和多类型问题的理解和推理，这个基准是专为中文而设计的。研究结果表明，CMMU 对近期的多模态大型语言模型构成了重要挑战。

Jan, 2024

SuperCLUE：一个全面的中文大语言模型基准

通过提出综合性的中文基准 SuperCLUE，我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况，并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。

Jul, 2023

CLUE：一个中文语言理解评测基准

该论文介绍了第一个大规模的中文语言理解评估基准，名为 CLUE，以帮助解决英语特定的自然语言理解模型难以用于其他语言的问题，并使用 9 个最先进的中文预训练模型来报告结果，并引入了一系列辅助数据集和工具以促进中文自然语言理解技术的进一步发展。

Apr, 2020