SuperCLUE：一个全面的中文大语言模型基准

Jul, 2023

SuperCLUE：一个全面的中文大语言模型基准

SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark

Liang Xu, Anqi Li, Lei Zhu, Hang Xue, Changtai Zhu...

TL;DR通过提出综合性的中文基准 SuperCLUE，我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况，并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。

Abstract

large language models (LLMs) have shown the potential to be integrated into human daily lives. Therefore, user preference is the most critical criterion for assessing LLMs' performance in real-world scenarios. Ho

large language models user preference comprehensive chinese benchmark superclue gpt-4

发现论文，激发创造

CLUE：一个中文语言理解评测基准

该论文介绍了第一个大规模的中文语言理解评估基准，名为 CLUE，以帮助解决英语特定的自然语言理解模型难以用于其他语言的问题，并使用 9 个最先进的中文预训练模型来报告结果，并引入了一系列辅助数据集和工具以促进中文自然语言理解技术的进一步发展。

Apr, 2020

SC-Safety：大语言模型中的多轮开放性问题对抗安全基准

引入了一个多轮对抗基准 (SuperCLUE-Safety)，通过人机对抗交互和对话的方式，系统评估了中文大型语言模型 (Large language models) 的安全性，发现闭源模型在安全性方面优于开源模型，中国发布的模型与 GPT-3.5-turbo 等模型具有可比较的安全水平，某些参数为 6B-13B 的较小模型在安全性方面同样具有有效竞争力，这项基准和发现为模型选择提供了指导。

Oct, 2023

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

在 CFLUE 上对大型语言模型进行基准测试 —— 中文金融语言理解评估数据集

我们提出了中文金融语言理解评估基准 CFLUE，用于评估大型语言模型在知识评估和应用评估方面的能力。CFLUE 提供了定制的数据集，用于知识评估和应用评估，并进行了代表性大型语言模型的彻底评估。

May, 2024

超级 CLUE-Fin：对中文金融 LLM 进行多样化金融任务和应用的分级细粒度分析

SuperCLUE-Fin 是专为中文金融大型语言模型（FLMs）设计的评估框架，通过六个金融应用领域和 25 个专业任务对 FLMs 进行评估，包括合规性，风险管理和投资分析等理论知识和实际应用。SC-Fin 可帮助改善 FLMs 在中国金融领域的性能和可用性，推动人工智能在这一领域的发展和负责任的应用。

Apr, 2024

医疗领域中的大型语言模型：一项综合基准评估

评估医疗领域中多样化的大型语言模型在七个任务和十三个数据集上的综合性能

Apr, 2024

SuperCLUE-Math6: 适用于中文语言模型的分级多步数学推理基准测试

我们引入了 SuperCLUE-Math6（SC-Math6），这是一个新的基准数据集，用于评估中文语言模型的数学推理能力。SC-Math6 是 GSM8K 数据集的升级版，具有增强的难度、多样性和应用范围。它包含了 2000 多个需要多步推理并提供自然语言解决方案的数学问题。我们提出了一种创新方案来量化大模型的推理能力，基于其在具有不同推理步骤的问题上的表现。对 12 个代表性中文模型的实验表明，推理水平存在明显的分层，顶级模型如 GPT-4 表现出优异性能。SC-Math6 填补了中文数学推理基准的空白，并提供了一个全面的测试平台来推进中文语言模型的智能化发展。

Jan, 2024

CLUE: 用于 LLMs 的临床语言理解评估

为填补现有研究中缺乏对医疗领域广泛应用的临床任务的评估的空白，我们提出了一种适用于现实世界临床任务的基准测试工具 CLUE，并通过评估多个生物医学和通用领域 LLMs 的临床表现和适用性，推进医疗领域的 LLMs 评估和开发的标准化方法。

Apr, 2024

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024

推进传统中文语言模型的评估：朝着综合基准套件迈进

评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试，利用现有的英文数据集，并专门针对评估传统汉语语言模型进行调整，包括问答、摘要、分类和表格理解等任务。评估结果表明，我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究，我们已经开源了我们的基准测试并开放了模型供试用。

Sep, 2023