CLongEval: 用于评估长文本大语言模型的中文基准

Mar, 2024

CLongEval: 用于评估长文本大语言模型的中文基准

CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

Zexuan Qiu, Jingjing Li, Shijue Huang, Wanjun Zhong, Irwin King

TL;DR我们提出了一个用于评估长文本上下文下的大型语言模型的全面中文基准测试 ——CLongEval，特点是足够的数据量、广泛的适用性和高质量。通过对 6 个开源长文本上下文大型语言模型和 2 个领先的商业对手进行评估，我们对长文本上下文模型的关键能力进行了深入分析，并提供了数据集、评估脚本和模型输出。

Abstract

Developing large language models (LLMs) with robust long-context capabilities has been the recent research focus, resulting in the emergence of long-context LLMs proficient in →

large language models long-context capabilities evaluation benchmark chinese

发现论文，激发创造

L-Eval: 长上下文语言模型的标准化评估实施

我们提出了评估长上下文语言模型的标准化评估方法，开发了包含 411 个长文档和超过 2,000 个查询 - 回复对的 L-Eval，经过作者手工注释和检查。结果表明，开源模型在开放式任务和封闭式任务上都表现出令人印象深刻的性能，其中 LLaMA2 在 4k 上下文长度的开放式任务中获得最佳结果，而 ChatGLM2 在 8k 输入标记的封闭式任务中取得最佳结果。

Jul, 2023

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

LV-Eval: 5 个长度级别高达 256K 的平衡长上下文基准测试

该论文介绍了 LV-Eval，一个具有不同上下文长度的具有挑战性的长上下文测试基准，包含单跳问答和多跳问答两个主要任务，通过混淆事实插入、关键词和短语替换以及基于关键词回忆的度量设计等三种关键技术，解决了主流基准测试中的不足之处，并评估了 10 种语言模型在 LV-Eval 上的表现。

Feb, 2024

LooGLE: 长文本语言模型是否理解长文本上下文？

基于 LooGLE 评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Jan, 2024

Ada-LEval：使用可调整长度基准评估长上下文语言模型

我们引入了 Ada-LEval，这是一个适用于评估 LLM 长上下文理解能力的长度可适应性基准测试，包括两个具有挑战性的子集 TSort 和 BestAnswer，通过评估 4 个最先进的闭源 API 模型和 6 个开源模型，证明了目前 LLM 在超长上下文环境中的局限性。

Apr, 2024

C-Eval: 一种基于多级多学科的中文评估套件，用于基础模型

通过 C-Eval 对基础模型的评估，结果表明，只有 GPT-4 能够在 C-Eval 上获得平均超过 60% 的准确度，这暗示着当前的大语言模型仍有很大的提升空间。

May, 2023

AC-EVAL：在大型语言模型中评估古汉语理解能力

为了满足大型语言模型（LLMs）对古代语境的理解的评估需求，本研究设计了 AC-EVAL 基准测试，用于评估 LLMs 在古代汉语背景下的高级知识和推理能力。通过涵盖历史事实、地理、社会习俗、艺术、哲学、古典诗歌和散文等 13 个任务，AC-EVAL 提供了一个全面的评估框架。评估结果发现针对英文和中文进行优化的 LLMs 在古代文本理解方面具有巨大潜力。AC-EVAL 旨在通过揭示 LLMs 的优势和劣势，促进它们在古代汉语语言教育和学术研究领域的发展和应用。

Mar, 2024

不留下任何文件：扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试 Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试

开放评估是一个评估测试基地，以能力、对齐和安全等方面对中文大型语言模型进行基准测试，并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。

Mar, 2024