推进传统中文语言模型的评估：朝着综合基准套件迈进

Sep, 2023

推进传统中文语言模型的评估：朝着综合基准套件迈进

Advancing the Evaluation of Traditional Chinese Language Models: Towards a Comprehensive Benchmark Suite

Chan-Jan Hsu, Chang-Le Liu, Feng-Ting Liao, Po-Chun Hsu, Yi-Chang Chen...

TL;DR评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试，利用现有的英文数据集，并专门针对评估传统汉语语言模型进行调整，包括问答、摘要、分类和表格理解等任务。评估结果表明，我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究，我们已经开源了我们的基准测试并开放了模型供试用。

Abstract

The evaluation of large language models is an essential task in the field of language understanding and generation. As language models con

language models benchmarks traditional chinese evaluation performance

发现论文，激发创造

TCMBench：中医药领域大型语言模型综合评估基准

介绍了 TCM-Bench 综合评估 TCM 中大型语言模型性能的基准，提出了 TCMScore 作为评估 TCM 问题回答质量的指标，并从不同角度进行了综合实验分析，突出了大型语言模型在 TCM 领域的能力和局限性。

Jun, 2024

基于改进的传统中文评估套件的基础模型

我们发布了 TMMLU+，这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集，包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比，TMMLU + 的规模增加了六倍，学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果，这些模型的参数范围从 1.8B 到 72B 不等。我们的研究发现，传统中文模型仍然落后于其简体中文模型。此外，目前的大型语言模型在平均分上仍未超越人类表现。我们公开发布了我们的数据集和相应的基准源代码。

Mar, 2024

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024

C$^{3}$Bench：一个面向大型语言模型的综合性古代汉语理解基准

通过提出 C^3bench，我们在五个主要的古文理解任务中广泛评估了 15 个代表性大语言模型的定量性能。结果表明，现有的大语言模型在古文理解任务上仍然表现不佳，相比受监督模型仍然较差。我们相信这项研究可以为未来基于大语言模型的古文理解研究提供标准基准、全面的基线和有价值的见解。

May, 2024

CT-Eval: 大型语言模型中中国文本到表格性能的基准评估

通过构建一个中文文本到表格的数据集 CT-Eval，并利用该数据集评估开源和闭源的大型语言模型 (包括 GPT-4) 的性能，研究结果显示零翻译大型语言模型仍然与人类判断存在明显的性能差距，但经过微调后，开源的大型语言模型的文本到表格能力可以显著提高，超过了 GPT-4 很大的程度。这表明 CT-Eval 不仅可以帮助研究人员评估和快速了解现有大型语言模型的中文文本到表格能力，还可作为极大提升大型语言模型文本到表格性能的宝贵资源。

May, 2024

FoundaBench: 评估大型语言模型在中文基础知识能力上的表现

本研究介绍了 FoundaBench，这是一个旨在严格评估中国语言和文化定制的大型语言模型的基础知识能力的开创性基准。使用 FoundaBench 对 12 个最先进的语言模型进行了全面评估，结果表明在中文语料库上预训练的模型性能更优，同时发现模型的推理和记忆能力存在显著差异。FoundaBench 评估得出的见解为理解大型语言模型的基础知识奠定了新的标准，为未来领域的进展提供了一个强大的框架。

Apr, 2024

探究训练数据和评估对中文指示性语言模型的影响

本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析，选取各种评估指标来评价各类开源聊天机器人的性能表现，并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练，以期提升聊天机器人在中文领域的表现与效率，最后将模型、数据、代码进行公开发布。

Apr, 2023

评估大型语言模型在高考基准测试上的表现

这篇论文介绍了 GAOKAO-Benchmark，它是一个直观的基准测试，利用中国高考考试的问题作为测试样本，对大型语言模型进行评估的一种方法。我们采用基于零 - shot prompts 的方法来分析模型的准确率和评分率，发现 ChatGPT 模型在解决客观问题方面表现优异，同时也揭示了它的不足之处和改进方向，为未来大规模语言模型的评估提供了坚实的基础和有价值的见解。

May, 2023

逐九：为大型语言模型提供的多维多面的中文基准测试

大语言模型的综合性和准确性评估需要全面而系统的基准。为此，我们提出了 ZhuJiu 基准，具有综合评估大语言模型的多维能力覆盖，多方面合作评估方法，全面的中文基准以及避免潜在数据泄漏的特点。我们对 10 个当前主流大语言模型进行了评估，并对结果进行了深入的讨论和分析。

Aug, 2023

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Jan, 2024