OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试

Mar, 2024

OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试

OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety

Chuang Liu, Linhao Yu, Jiaxuan Li, Renren Jin, Yufei Huang...

TL;DR开放评估是一个评估测试基地，以能力、对齐和安全等方面对中文大型语言模型进行基准测试，并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。

Abstract

The rapid development of chinese large language models (LLMs) poses big challenges for efficient LLM evaluation. While current initiatives have introduced new →

chinese large language models evaluation benchmarks alignment safety

发现论文，激发创造

LAiW：中国法律大型语言模型基准（技术报告）

我们提出了第一个基于法学能力的中国法学硕士 (LLMs) 综合评估基准。通过法律和人工智能专家的协作努力，我们将法学硕士的法律能力分为三个层次：基本法律自然语言处理能力、基本法律应用能力和复杂法律应用能力。我们已完成了第一阶段的评估，主要关注基本法律自然语言处理能力。评估结果显示，尽管一些法学硕士在性能上优于它们的基础模型，但与 ChatGPT 相比仍存在差距。我们的基准测试可以在 URL 上找到。

Oct, 2023

AlignBench：大型语言模型中文对齐性能基准测试

介绍了 AlignBench，这是一个多维基准，用于评估中文大型语言模型（LLMs）的对齐能力。使用人机协作的数据处理流程，通过使用 Rule-calibrated 多维 LLM 作为评判者和思维链来生成解释和最终评级，确保评估的可靠性和解释性。此外，开发了专门用于评估中文 LLMs 对齐性的伴侣评估模型 CritiqueLLM，可通过公共 API 提供给研究人员使用。

Nov, 2023

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Jan, 2024

腾讯 LLMEval：人类对齐的 LLMs 的实际能力的层次评估

通过构建一个综合的人工评估框架，我们提出了一个评估大规模语言模型在不同实际任务中遵循指令的能力的方法，同时设计了详细的评估标准和过程，释放了一个包含不同难度水平和知识领域的测试集，并分析了自动化评估的可行性。我们的研究为评估英语和中文大规模语言模型的人类对齐性提供了一个标准化的方法，旨在促进安全和人类对齐性大规模语言模型发展进步的基准化。

Nov, 2023

衡量台灣普通話語言理解能力

该研究针对传统汉语在现有基准测试中的低覆盖率，提出了适用于评估大型语言模型的 TMLU 综合评估工具，通过中学到专业水平的 37 个科目以及对每个科目进行链式思考式的少样本解释，基于 24 个优秀的语言模型的广泛实验证明汉语公开权重模型在复杂推理能力上表现较差，而适用于台湾国语的开放权重模型也相对于简体中文版本存在差距，研究发现存在提升潜力，强调了培养本土化台湾国语大型语言模型的目标，并公开了基准测试和评估脚本以促进未来研究。

Mar, 2024

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

CValues: 从安全到责任，衡量中国大型语言模型的价值

本文提出了 CValues，首个用于评估大型语言模型（LLMs）人类价值观一致性的中文评估基准，该基准通过在十个场景中手动收集对抗性安全提示和由专业专家引导的八个领域的责任提示来衡量 LLMs 的一致性能力。研究发现，虽然大部分中文 LLMs 在安全方面表现良好，但在责任方面还有相当大的改进空间。自动评估和人工评估在评估不同方面的人类价值观一致性方面都是重要的。

Jul, 2023

S-Eval: 大型语言模型安全评估的自动化和自适应测试生成

在这项工作中，我们提出了 S-Eval，这是一个新的全面、多维度且开放的安全评估基准，通过训练专家测试的大型语言模型 Mt 与一系列测试选择策略相结合，自动构建了一个高质量的测试套件用于安全评估。该论文还介绍了一个四级的风险分类体系，覆盖了全面多维的安全风险，同时提供了灵活配置和适应新风险、攻击和模型的能力。S-Eval 在 20 个流行和代表性的大型语言模型上进行了广泛评估，结果表明相比现有的基准，S-Eval 可以更好地反映和提供大型语言模型的安全风险信息。

May, 2024

评估大型语言模型：综述

该研究综述了大型语言模型的评估方法，并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法，以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣，以促进负责任发展和最大化社会利益，同时最小化潜在风险。

Oct, 2023

CLEVA：中文语言模型评估平台

为解决当前评估中文大型语言模型的挑战，我们提出了 CLEVA，一个用户友好的平台，通过标准化的流程评估模型的性能，并定期更新排行榜。CLEVA 还通过策略性的数据采样来减少数据污染，并通过易于使用的界面和模型 API 使用户能够进行全面评估。大规模实验已验证 CLEVA 的有效性。

Aug, 2023