CHiSafetyBench：一份用于大型语言模型的中文分层安全基准评测

Jun, 2024

CHiSafetyBench：一份用于大型语言模型的中文分层安全基准评测

CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models

Wenjing Zhang, Xuejiao Lei, Zhaoxiang Liu, Meijuan An, Bikun Yang...

TL;DR该论文介绍了 CHiSafetyBench，这是一个专门用于评估大型语言模型在中文情境中识别危险内容和拒绝回答危险问题能力的安全基准。通过该基准，作者验证了自动评估作为人工评估的替代的可行性，并对主流的中文语言模型进行了全面的自动安全评估。实验表明，不同模型在各个安全领域的性能存在差异，指示了所有模型在中国的安全能力方面有相当大的改进潜力。

Abstract

With the profound development of large language models(LLMs), their safety concerns have garnered increasing attention. However, there is a scarcity of chinese safety benchmarks for LLMs, and the existing safety

large language models chinese safety benchmarks chisafetybench risk content identification automatic safety assessments

发现论文，激发创造

SafetyBench: 用多项选择题评估大型语言模型的安全性

以 SafetyBench 为基础，该研究设计了一个综合评估大型语言模型安全性的基准测试工具，包括 11435 个不同类别的问题，并能够提供两种语言（中文和英文）的评估结果，通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出，但当前大型语言模型的安全性仍有提升空间。

Sep, 2023

用于评估大型语言模型中的保障措施的中文数据集

通过引入一个用于评估中文 LLM 安全性的数据集，我们扩展到其他两个场景，用于更好地识别有风险的提示拒绝的假阴性和假阳性示例，并提出了细化的每种风险类型的安全评估标准，为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明，区域特定风险是最普遍的风险类型，是我们所研究的所有中文 LLM 的主要问题。

Feb, 2024

SC-Safety：大语言模型中的多轮开放性问题对抗安全基准

引入了一个多轮对抗基准 (SuperCLUE-Safety)，通过人机对抗交互和对话的方式，系统评估了中文大型语言模型 (Large language models) 的安全性，发现闭源模型在安全性方面优于开源模型，中国发布的模型与 GPT-3.5-turbo 等模型具有可比较的安全水平，某些参数为 6B-13B 的较小模型在安全性方面同样具有有效竞争力，这项基准和发现为模型选择提供了指导。

Oct, 2023

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试

开放评估是一个评估测试基地，以能力、对齐和安全等方面对中文大型语言模型进行基准测试，并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。

Mar, 2024

CPSDBench：一个用于中国公安领域的大型语言模型评估基准和基线

通过构建一个专门针对中国公安领域的评估基准系统（CPSDbench），本研究旨在评估主流大型语言模型（LLMs）在公安任务中的性能，并介绍了一组创新的评估指标，以更准确地衡量 LLMs 在处理公安问题的任务中的效能。通过深入分析和评估，不仅提升了我们对现有模型在解决公安问题上的性能优势和局限性的理解，还为未来开发更准确、定制的面向该领域应用的 LLM 模型提供了参考。

Feb, 2024

所有语言都重要：关于大型语言模型的多语言安全性

我们建立了第一个多语言安全基准（XSafety）用于大型语言模型的开发和部署，在实验中发现所有的大型语言模型对非英语查询的不安全回复明显增多，为此我们提出了几种简单有效的提示方法，从而显著提高 ChatGPT 的多语言安全性。

Oct, 2023

SORRY-Bench: 大型语言模型安全拒绝行为系统评估

评估大型语言模型识别和拒绝不安全用户请求的能力对于安全和符合政策的应用至关重要，SORRY-Bench 是我们提出的基准测试方法，改善了现有方法的三个局限，包括对不安全主题的细致分类、考虑语言特征和格式的偏差以及设计高效的自动化安全评估器。

Jun, 2024

CValues: 从安全到责任，衡量中国大型语言模型的价值

本文提出了 CValues，首个用于评估大型语言模型（LLMs）人类价值观一致性的中文评估基准，该基准通过在十个场景中手动收集对抗性安全提示和由专业专家引导的八个领域的责任提示来衡量 LLMs 的一致性能力。研究发现，虽然大部分中文 LLMs 在安全方面表现良好，但在责任方面还有相当大的改进空间。自动评估和人工评估在评估不同方面的人类价值观一致性方面都是重要的。

Jul, 2023

火焰：中国大型语言模型价值对齐基准测试

该研究论文提出了一个高度对抗性的基准测试叫做 Flames，用于评估大型语言模型与人类价值观的一致性，并揭示了现有测试无法有效发现这些模型的安全漏洞。通过与复杂场景和恶意方法相结合的对抗性提示，研究者发现所有评估的大型语言模型在 Flames 测试中表现较差，尤其是在安全性和公平性方面。为了高效评估新模型，他们开发了一个多维度评分器，可以准确评分多个大型语言模型。Flames 基准测试已经公开可用。

Nov, 2023