火焰：中国大型语言模型价值对齐基准测试

Nov, 2023

火焰：中国大型语言模型价值对齐基准测试

Flames: Benchmarking Value Alignment of Chinese Large Language Models

Kexin Huang, Xiangyang Liu, Qianyu Guo, Tianxiang Sun, Jiawei Sun...

TL;DR该研究论文提出了一个高度对抗性的基准测试叫做 Flames，用于评估大型语言模型与人类价值观的一致性，并揭示了现有测试无法有效发现这些模型的安全漏洞。通过与复杂场景和恶意方法相结合的对抗性提示，研究者发现所有评估的大型语言模型在 Flames 测试中表现较差，尤其是在安全性和公平性方面。为了高效评估新模型，他们开发了一个多维度评分器，可以准确评分多个大型语言模型。Flames 基准测试已经公开可用。

Abstract

The widespread adoption of large language models (LLMs) across various regions underscores the urgent need to evaluate their alignment with human values. Current benchmarks, however, fall short of effectively uncovering safety vulnerabilities in LLMs. Despite numerous models achieving

large language models alignment with human values adversarial benchmark harmlessness flames benchmark

发现论文，激发创造

CValues: 从安全到责任，衡量中国大型语言模型的价值

本文提出了 CValues，首个用于评估大型语言模型（LLMs）人类价值观一致性的中文评估基准，该基准通过在十个场景中手动收集对抗性安全提示和由专业专家引导的八个领域的责任提示来衡量 LLMs 的一致性能力。研究发现，虽然大部分中文 LLMs 在安全方面表现良好，但在责任方面还有相当大的改进空间。自动评估和人工评估在评估不同方面的人类价值观一致性方面都是重要的。

Jul, 2023

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

用于评估大型语言模型中的保障措施的中文数据集

通过引入一个用于评估中文 LLM 安全性的数据集，我们扩展到其他两个场景，用于更好地识别有风险的提示拒绝的假阴性和假阳性示例，并提出了细化的每种风险类型的安全评估标准，为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的实验表明，区域特定风险是最普遍的风险类型，是我们所研究的所有中文 LLM 的主要问题。

Feb, 2024

OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试

开放评估是一个评估测试基地，以能力、对齐和安全等方面对中文大型语言模型进行基准测试，并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。

Mar, 2024

SC-Safety：大语言模型中的多轮开放性问题对抗安全基准

引入了一个多轮对抗基准 (SuperCLUE-Safety)，通过人机对抗交互和对话的方式，系统评估了中文大型语言模型 (Large language models) 的安全性，发现闭源模型在安全性方面优于开源模型，中国发布的模型与 GPT-3.5-turbo 等模型具有可比较的安全水平，某些参数为 6B-13B 的较小模型在安全性方面同样具有有效竞争力，这项基准和发现为模型选择提供了指导。

Oct, 2023

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

CyberSecEval 2: 大型语言模型的广泛网络安全评估套件

大型语言模型引入新的安全风险，但缺乏综合评估套件来衡量和减少这些风险。我们提出了 BenchmarkName，这是一个用于量化 LLM 安全风险和能力的新型基准。我们介绍了两个新领域的测试：提示注入和代码解释器滥用。我们评估了多种最先进的 LLMs，包括 GPT-4、Mistral、Meta Llama 3 70B-Instruct 和 Code Llama。我们的结果表明，消除攻击风险的条件仍然是一个尚未解决的问题；例如，所有测试模型在成功的提示注入测试中显示出 26% 到 41% 之间的结果。我们进一步引入了安全效用权衡：将 LLM 条件化以拒绝不安全的提示可能导致 LLM 错误地拒绝回答良性提示，从而降低效用。我们建议使用 False Refusal Rate（FRR）来量化这种权衡。作为示例，我们引入了一个新的测试集来量化网络攻击有用性风险的 FRR。我们发现，许多 LLMs 能够与 “边界线” 良性请求成功地相符，同时拒绝大部分不安全的请求。最后，我们量化了 LLMs 在自动化核心网络安全任务（例如利用软件漏洞）方面的效用。这很重要，因为 LLMs 的进攻能力引起了极大的兴趣；我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型，但 LLMs 在利用生成方面还需要进一步的工作。我们的代码是开源的，可以用于评估其他 LLMs。

Apr, 2024

SafetyBench: 用多项选择题评估大型语言模型的安全性

以 SafetyBench 为基础，该研究设计了一个综合评估大型语言模型安全性的基准测试工具，包括 11435 个不同类别的问题，并能够提供两种语言（中文和英文）的评估结果，通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出，但当前大型语言模型的安全性仍有提升空间。

Sep, 2023

CHiSafetyBench：一份用于大型语言模型的中文分层安全基准评测

该论文介绍了 CHiSafetyBench，这是一个专门用于评估大型语言模型在中文情境中识别危险内容和拒绝回答危险问题能力的安全基准。通过该基准，作者验证了自动评估作为人工评估的替代的可行性，并对主流的中文语言模型进行了全面的自动安全评估。实验表明，不同模型在各个安全领域的性能存在差异，指示了所有模型在中国的安全能力方面有相当大的改进潜力。

Jun, 2024

AlignBench：大型语言模型中文对齐性能基准测试

介绍了 AlignBench，这是一个多维基准，用于评估中文大型语言模型（LLMs）的对齐能力。使用人机协作的数据处理流程，通过使用 Rule-calibrated 多维 LLM 作为评判者和思维链来生成解释和最终评级，确保评估的可靠性和解释性。此外，开发了专门用于评估中文 LLMs 对齐性的伴侣评估模型 CritiqueLLM，可通过公共 API 提供给研究人员使用。

Nov, 2023