CLongEval: 用于评估长文本大语言模型的中文基准
我们提出了评估长上下文语言模型的标准化评估方法,开发了包含 411 个长文档和超过 2,000 个查询 - 回复对的 L-Eval,经过作者手工注释和检查。结果表明,开源模型在开放式任务和封闭式任务上都表现出令人印象深刻的性能,其中 LLaMA2 在 4k 上下文长度的开放式任务中获得最佳结果,而 ChatGLM2 在 8k 输入标记的封闭式任务中取得最佳结果。
Jul, 2023
通过引入 LongBench,对 8 个大型语言模型进行全面评估,我们发现商业模型(GPT-3.5-Turbo-16k)优于其他开源模型,但在更长的语境下仍存在困难;在较长序列上进行的缩放位置嵌入和微调,在长语境理解方面带来了实质性的改进;检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进,但性能仍落后于具有强大长上下文理解能力的模型。
Aug, 2023
该论文介绍了 LV-Eval,一个具有不同上下文长度的具有挑战性的长上下文测试基准,包含单跳问答和多跳问答两个主要任务,通过混淆事实插入、关键词和短语替换以及基于关键词回忆的度量设计等三种关键技术,解决了主流基准测试中的不足之处,并评估了 10 种语言模型在 LV-Eval 上的表现。
Feb, 2024
基于 LooGLE 评估模型的表现,研究显示商业模型在短依赖任务上胜过开源模型,同时也揭示了长依赖任务的困难,并指出在短问答任务中检索式技术有着明显的好处,而扩展上下文窗口长度的策略对于长上下文理解的影响有限。
Nov, 2023
通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL,针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成,并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现,中文优先的模型相比于英文优先的模型表现良好,其中许多模型的得分甚至超过了 GPT 4.0。然而,几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时,研究结果还表明,思维链技术(CoT)仅在具有挑战性的科学学科上有效,而一键提示对于文科学科更加有益。通过 E-EVAL,旨在分析 LLM 在教育应用中的优势和局限,推动中国 K-12 教育和 LLM 的进步与发展。
Jan, 2024
我们引入了 Ada-LEval,这是一个适用于评估 LLM 长上下文理解能力的长度可适应性基准测试,包括两个具有挑战性的子集 TSort 和 BestAnswer,通过评估 4 个最先进的闭源 API 模型和 6 个开源模型,证明了目前 LLM 在超长上下文环境中的局限性。
Apr, 2024
通过 C-Eval 对基础模型的评估,结果表明,只有 GPT-4 能够在 C-Eval 上获得平均超过 60% 的准确度,这暗示着当前的大语言模型仍有很大的提升空间。
May, 2023
为了满足大型语言模型(LLMs)对古代语境的理解的评估需求,本研究设计了 AC-EVAL 基准测试,用于评估 LLMs 在古代汉语背景下的高级知识和推理能力。通过涵盖历史事实、地理、社会习俗、艺术、哲学、古典诗歌和散文等 13 个任务,AC-EVAL 提供了一个全面的评估框架。评估结果发现针对英文和中文进行优化的 LLMs 在古代文本理解方面具有巨大潜力。AC-EVAL 旨在通过揭示 LLMs 的优势和劣势,促进它们在古代汉语语言教育和学术研究领域的发展和应用。
Mar, 2024
开放评估是一个评估测试基地,以能力、对齐和安全等方面对中文大型语言模型进行基准测试,并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。
Mar, 2024