CRiskEval：中文大型语言模型多级风险评估基准数据集

Jun, 2024

CRiskEval：中文大型语言模型多级风险评估基准数据集

CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models

Ling Shi, Deyi Xiong

TL;DR我们提出了 CRiskEval，这是一个精心设计的中文数据集，旨在评估大型语言模型（LLMs）中固有的风险倾向，以便进行积极的准备。通过多项选择问答方式，我们定义了一个包括 7 种前沿风险和 4 个安全级别的新的风险分类法，并对问题答案进行了精细标注，以建立每个 LLM 的细粒度前沿风险概况。CRiskEval 的广泛评估揭示了一项惊人的发现：大多数模型表现出超过 40% 的风险倾向，并且随着模型规模的增加，对紧急自持、权力追求和其他危险目标的倾向逐渐增加。

Abstract

large language models (LLMs) are possessed of numerous beneficial capabilities, yet their potential inclination harbors unpredictable risks that may materialize in the future. We hence propose CRiskEval, a Chinese datas

large language models risk evaluation dataset frontier risks chinese llms

发现论文，激发创造

用于评估大型语言模型中的保障措施的中文数据集

通过引入一个用于评估中文 LLM 安全性的数据集，我们扩展到其他两个场景，用于更好地识别有风险的提示拒绝的假阴性和假阳性示例，并提出了细化的每种风险类型的安全评估标准，为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明，区域特定风险是最普遍的风险类型，是我们所研究的所有中文 LLM 的主要问题。

Feb, 2024

OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试

开放评估是一个评估测试基地，以能力、对齐和安全等方面对中文大型语言模型进行基准测试，并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。

Mar, 2024

C-Eval: 一种基于多级多学科的中文评估套件，用于基础模型

通过 C-Eval 对基础模型的评估，结果表明，只有 GPT-4 能够在 C-Eval 上获得平均超过 60% 的准确度，这暗示着当前的大语言模型仍有很大的提升空间。

May, 2023

CHiSafetyBench：一份用于大型语言模型的中文分层安全基准评测

该论文介绍了 CHiSafetyBench，这是一个专门用于评估大型语言模型在中文情境中识别危险内容和拒绝回答危险问题能力的安全基准。通过该基准，作者验证了自动评估作为人工评估的替代的可行性，并对主流的中文语言模型进行了全面的自动安全评估。实验表明，不同模型在各个安全领域的性能存在差异，指示了所有模型在中国的安全能力方面有相当大的改进潜力。

Jun, 2024

E-EVAL：大型语言模型的全面中国 K-12 教育评估基准

通过介绍首个专为中国 K-12 教育领域设计的综合评估基准 E-EVAL，针对 LLM 在该领域的各种能力提供准确评估。E-EVAL 由 4,351 道初、中、高级别的选择题组成，并涵盖语文、英语、政治、历史、伦理、物理、化学、数学和地理等多个学科。研究发现，中文优先的模型相比于英文优先的模型表现良好，其中许多模型的得分甚至超过了 GPT 4.0。然而，几乎所有模型在数学等复杂科目上表现不佳。大部分中文优先的 LLM 在小学阶段的得分并不高于中学阶段的得分。同时，研究结果还表明，思维链技术（CoT）仅在具有挑战性的科学学科上有效，而一键提示对于文科学科更加有益。通过 E-EVAL，旨在分析 LLM 在教育应用中的优势和局限，推动中国 K-12 教育和 LLM 的进步与发展。

Jan, 2024

CLongEval: 用于评估长文本大语言模型的中文基准

我们提出了一个用于评估长文本上下文下的大型语言模型的全面中文基准测试 ——CLongEval，特点是足够的数据量、广泛的适用性和高质量。通过对 6 个开源长文本上下文大型语言模型和 2 个领先的商业对手进行评估，我们对长文本上下文模型的关键能力进行了深入分析，并提供了数据集、评估脚本和模型输出。

Mar, 2024

CValues: 从安全到责任，衡量中国大型语言模型的价值

本文提出了 CValues，首个用于评估大型语言模型（LLMs）人类价值观一致性的中文评估基准，该基准通过在十个场景中手动收集对抗性安全提示和由专业专家引导的八个领域的责任提示来衡量 LLMs 的一致性能力。研究发现，虽然大部分中文 LLMs 在安全方面表现良好，但在责任方面还有相当大的改进空间。自动评估和人工评估在评估不同方面的人类价值观一致性方面都是重要的。

Jul, 2023

大型语言模型中的风险与应对：评估关键威胁类别

本文对大型语言模型（LLMs）中的风险评估问题进行了探讨，并重点研究了奖励模型在感知和分类不同类型风险时面临的挑战，通过使用 Anthropic Red 团队的数据集，对信息风险、恶意用途和歧视 / 仇恨内容等主要风险类别进行了分析，研究结果表明 LLMs 倾向于认为信息风险较少有害，并通过特殊开发的回归模型对此进行了确认，此外，研究还揭示了 LLMs 在信息风险场景中对风险反应较不严格，强调了 LLM 风险评估中的关键安全问题以及对改进人工智能安全措施的需求。

Mar, 2024

FinEval：适用于大型语言模型的中文金融领域知识评估基准

使用 FinEval 基准测试，评估了当前中文和英文大型语言模型在金融领域知识方面的表现，结果显示只有 GPT-4 在不同提示设置下实现了接近 70% 的准确度，表明大型语言模型在金融领域知识方面具有显著的增长潜力。

Aug, 2023

CLEVA：中文语言模型评估平台

为解决当前评估中文大型语言模型的挑战，我们提出了 CLEVA，一个用户友好的平台，通过标准化的流程评估模型的性能，并定期更新排行榜。CLEVA 还通过策略性的数据采样来减少数据污染，并通过易于使用的界面和模型 API 使用户能够进行全面评估。大规模实验已验证 CLEVA 的有效性。

Aug, 2023