基于改进的传统中文评估套件的基础模型

Mar, 2024

基于改进的传统中文评估套件的基础模型

An Improved Traditional Chinese Evaluation Suite for Foundation Model

Zhi-Rui Tam, Ya-Ting Pai, Yen-Wei Lee, Sega Cheng, Hong-Han Shuai

TL;DR我们发布了 TMMLU+，这是一个为传统中文大规模多任务语言理解数据集而设计的全面数据集。TMMLU + 是一个多项选择问答数据集，包括 66 个从初级到专业水平的学科。与其前身 TMMLU 相比，TMMLU + 的规模增加了六倍，学科分布更加平衡。我们在 TMMLU + 中包含了来自闭源模型和 24 个开源的中文大型语言模型的基准结果，这些模型的参数范围从 1.8B 到 72B 不等。我们的研究发现，传统中文模型仍然落后于其简体中文模型。此外，目前的大型语言模型在平均分上仍未超越人类表现。我们公开发布了我们的数据集和相应的基准源代码。

Abstract

We present tmmlu++, a comprehensive dataset designed for the Traditional Chinese massive multitask language understanding dataset. tmmlu++

tmmlu+multitask language understanding dataset traditional chinese models chinese large language models benchmark results

发现论文，激发创造

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024

CMMLU: 用于测量中文海量多任务语言理解的工具

本文介绍了一个涵盖自然科学、社会科学、工程学和人文学科等多个领域的全面中文基准 CMMLU，并通过评估 18 种面向性能的多语言和中文 LLMs，在不同的主题和设置下评估它们的性能，结果显示，大多数现有 LLM 在提供上下文示例和思维链提示时仍然难以达到 50% 的平均准确性，而随机基准线为 25%，这凸显出 LLMs 有显着的改进空间。

Jun, 2023

推进传统中文语言模型的评估：朝着综合基准套件迈进

评估大型语言模型在语言理解和生成领域中是一项重要任务。我们提出了一套新的基准测试，利用现有的英文数据集，并专门针对评估传统汉语语言模型进行调整，包括问答、摘要、分类和表格理解等任务。评估结果表明，我们的模型在部分评估能力方面达到了与 GPT-3.5 相媲美的性能。为了推进传统汉语语言模型的评估并激发更多研究，我们已经开源了我们的基准测试并开放了模型供试用。

Sep, 2023

CMMU：中文多模态多类型问题理解与推理基准

多模态大型语言模型在理解和推理能力方面取得了显著进展，但领域专有知识的掌握仍然是一个挑战。因此，作者提出了一个名为 CMMU 的新型基准，用于测试多模态和多类型问题的理解和推理，这个基准是专为中文而设计的。研究结果表明，CMMU 对近期的多模态大型语言模型构成了重要挑战。

Jan, 2024

CMMMU: 一个中国的大型多学科多模态理解基准

CMMMU 是一个新的中国大规模多学科多模态理解基准，旨在评估大型多模态模型在中国语境中对要求大学级学科知识和深思熟虑推理的任务上的表现，并推动下一代 LMMs 的发展。

Jan, 2024

M3KE: 一种用于中文大型语言模型的庞大多级多主题知识评估基准

这篇论文介绍了 M3KE 评估标准，它是一个用于测试中文大型语言模型在各种学科和教育级别下零样本和少样本的多任务准确性的基准。通过在该基准上对比，研究人员发现 GPT-3.5 在 M3KE 上达到了约 48% 的准确率，比其他中文语言模型表现更为优异。

May, 2023

KMMLU：韩国语的大规模多任务语言理解测量

我们提出了 KMMLU，这是一个新的韩语基准，包括来自 45 个学科的 35,030 个专家级多项选择题，涵盖人文学科到 STEM 学科。与之前从现有英语基准翻译而来的韩语基准不同，KMMLU 收集了来自原始韩语考试的问题，捕捉了韩语的语言和文化方面。我们测试了 26 个公开和专有 LLM 模型，发现有显著的改进空间。最好的公开模型在 KMMLU 上的准确率为 50.54％，远远低于人类平均表现 62.6％。该模型主要用于英文和中文训练，而不是韩语。对于韩语，当前的适用 LLMs，例如 Polyglot-Ko，表现得更差。令人惊讶的是，即使是最强大的专有 LLMs，例如 GPT-4 和 HyperCLOVA X，分别只能达到 59.95％和 53.40％。这表明需要进一步改进韩语 LLMs，而 KMMLU 提供了追踪这一进展的正确工具。我们在 Hugging Face Hub 上公开了我们的数据集，并将这个基准整合到 EleutherAI 的语言模型评估工具中。

Feb, 2024

TCMBench：中医药领域大型语言模型综合评估基准

介绍了 TCM-Bench 综合评估 TCM 中大型语言模型性能的基准，提出了 TCMScore 作为评估 TCM 问题回答质量的指标，并从不同角度进行了综合实验分析，突出了大型语言模型在 TCM 领域的能力和局限性。

Jun, 2024

在 CFLUE 上对大型语言模型进行基准测试 —— 中文金融语言理解评估数据集

我们提出了中文金融语言理解评估基准 CFLUE，用于评估大型语言模型在知识评估和应用评估方面的能力。CFLUE 提供了定制的数据集，用于知识评估和应用评估，并进行了代表性大型语言模型的彻底评估。

May, 2024

TCMD：一个用于评估大型语言模型的中医问答数据集

通过引入新的医学问答数据集 TCMD，本文评估了不同领域通用语言模型和医学领域特定语言模型在中医领域的能力，并分析了它们在中医问答任务中的鲁棒性及其存在的不足。希望该数据集进一步促进中医领域通用语言模型的发展。

Jun, 2024