MLCommons AI 安全基准 v0.5 发布

Apr, 2024

Introducing v0.5 of the AI Safety Benchmark from MLCommons

Bertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi...

TL;DR介绍了 MLCommons AI 安全工作组创建的 AI 安全基准 v0.5，设计用于评估使用对话调整的语言模型的 AI 系统的安全风险。该基准采用了一个确定性的方法来指定和构建，并包括了 13 个危险类别的分类法，为 v0.5 版本提供了 7 个测试用例。

Abstract

This paper introduces v0.5 of the ai safety benchmark, which has been created by the mlcommons ai safety working group. The ai safety benchmark

ai safety benchmark mlcommons ai safety working group chat-tuned language models hazard categories modelbench

发现论文，激发创造

CHiSafetyBench：一份用于大型语言模型的中文分层安全基准评测

该论文介绍了 CHiSafetyBench，这是一个专门用于评估大型语言模型在中文情境中识别危险内容和拒绝回答危险问题能力的安全基准。通过该基准，作者验证了自动评估作为人工评估的替代的可行性，并对主流的中文语言模型进行了全面的自动安全评估。实验表明，不同模型在各个安全领域的性能存在差异，指示了所有模型在中国的安全能力方面有相当大的改进潜力。

Jun, 2024

SafetyBench: 用多项选择题评估大型语言模型的安全性

以 SafetyBench 为基础，该研究设计了一个综合评估大型语言模型安全性的基准测试工具，包括 11435 个不同类别的问题，并能够提供两种语言（中文和英文）的评估结果，通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出，但当前大型语言模型的安全性仍有提升空间。

Sep, 2023

SimpleSafetyTests: 大型语言模型中关键安全风险的测试套件

开发大型语言模型的快速加速使得开源和开放获取的模型成为 ChatGPT 等专有模型的可行替代。然而，缺乏适当的引导和保障，大型语言模型容易遵循恶意指令、提供不安全建议和生成有害内容，这对企业和开发者来说是一个重大的安全风险。我们引入了 SimpleSafetyTests 作为一套新的测试套件，用于快速系统地鉴定此类重大安全风险。该测试套件包含 100 个测试提示，涵盖了大大多数应用中大型语言模型在五个危害方面应拒绝遵守的内容。我们测试了 11 个受欢迎的开源大型语言模型，并发现其中有几个存在重大的安全弱点。虽然一些大型语言模型没有给出任何不安全的回答，但我们测试的大多数模型在超过 20% 的情况下都会回答不安全，并且在极端情况下有超过 50% 的不安全回答。在系统提示中追加强调安全性的内容能够大大减少不安全回答的发生，但并不能完全阻止。我们建议开发者将此类系统提示作为防范重大安全风险的第一层防线。

Nov, 2023

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

精神健康支持中对话安全的基准测试

通过开发具有理论和事实基础的聚焦于帮助寻求者积极影响的分类法以及创建具有细粒度标签的基准语料库，本研究在心理健康支持对话中分析使用 BERT-base、RoBERTa-large 和 ChatGPT 等流行语言模型以检测和理解不安全回应，并揭示 ChatGPT 在零样本和少样本范式中无法检测具有详细定义的安全类别，而经过微调的模型更加适用，为心理健康支持对话的对话安全研究提供了有价值的基准，并对改善真实应用中对话代理的设计和部署产生了重大影响。

Jul, 2023

UnsafeBench: 对真实世界和 AI 生成图像的图像安全分类器进行基准测试

UnsafeBench 是一个评估图像安全分类器的有效性和鲁棒性的基准框架；通过评估五种常用的图像安全分类器和三种通用视觉语言模型驱动的分类器，发现现有的图像安全分类器在应对不安全图像的多方面问题上不够全面和有效，并且当适用于 AI 生成的图像时，仅基于真实世界图像训练的分类器性能会下降；据此，设计并实现了一款名为 PerspectiveVision 的综合图像审核工具，该工具可以有效地识别 11 类真实世界和 AI 生成的不安全图像，最佳 PerspectiveVision 模型在六个评估数据集上实现了 0.810 的整体 F1-Score，与 GPT-4V 等封闭源和昂贵的最先进模型相当。UnsafeBench 和 PerspectiveVision 有助于研究界更好地了解生成式 AI 时代的图像安全分类领域。

May, 2024

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

E2E 会话型 AI 安全问题预测：框架和工具

本文讨论了在训练端到端对话 AI 模型时会遇到的关于安全性的困境。提供了一个基于价值观的设计框架，以帮助研究人员在决定何时和如何发布这些模型时做出更合理的决策，并提供了一套工具来帮助他们进行更明智的选择。

Jul, 2021

所有语言都重要：关于大型语言模型的多语言安全性

我们建立了第一个多语言安全基准（XSafety）用于大型语言模型的开发和部署，在实验中发现所有的大型语言模型对非英语查询的不安全回复明显增多，为此我们提出了几种简单有效的提示方法，从而显著提高 ChatGPT 的多语言安全性。

Oct, 2023

构建安全可靠的用于安全关键任务的视觉与语言处理的人工智能系统

AI 系统在各个领域取得了令人瞩目的成绩，然而其安全性和可靠性仍然是一个重要的关注点，特别是对于安全关键任务。本论文旨在通过进一步开发当前技术来确保安全关键任务的准确模型不确定性。

Aug, 2023