STAR: 社会技术方法在红队化语言模型中的应用

Jun, 2024

STAR: 社会技术方法在红队化语言模型中的应用

STAR: SocioTechnical Approach to Red Teaming Language Models

Laura Weidinger, John Mellor, Bernat Guillen Pegueroles, Nahema Marchal, Ravin Kumar...

TL;DRSTAR 是一种社会技术框架，通过生成参数化指令来改进对大型语言模型的红队安全测试，提高了模型的可控性和信号质量。

Abstract

This research introduces star, a sociotechnical framework that improves on current best practices for red teaming safety of →

star sociotechnical framework red teaming safety large language models steerability

发现论文，激发创造

将红队化的语言模型减少危害：方法、扩展行为与经验教训

本文介绍了对语言模型进行红队测试的早期探索，尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现，随着模型规模的扩大，使用人类反馈进行强化学习的模型难以被红队攻击，并提供数据集和方法说明以便进行共同探讨。

Aug, 2022

ASSERT：用于评估大型语言模型鲁棒性的自动化安全场景红队测试

在将大型语言模型整合到社会中时，对一套提示的鲁棒性越来越重要，以确保在高差异环境中保持可靠性。本文提出了 ASSERT（自动化安全场景红队演练），包括三种方法：语义对齐增强、目标引导和对抗性知识注入。为了进行鲁棒安全评估，我们将这些方法应用于 AI 安全关键领域，以算法生成一套涵盖多样的鲁棒性设置的测试提示。我们将提示分为四个安全领域，以对领域如何影响模型性能进行精细分析。尽管现有最先进模型具有专用的安全措施，但我们发现在语义相关场景中，绝对分类准确率存在高达 11% 的统计学显著性差异，零样本对抗设置中的错误率高达 19% 的绝对误差，给用户的身体安全带来了担忧。

Oct, 2023

走向多模态多语种翻译的红色团队

自然语言处理性能评估变得越来越复杂，本文首次研究了基于人工方法的团队鉴定在机器翻译中的应用，为理解和改进翻译模型的性能迈出了重要一步。

Jan, 2024

使用语言模型对语言模型进行红队测试

使用红队技术，在基于语言模型的聊天机器人中生成测试用例以检测有害行为，并训练分类器检测模型产生的攻击性内容，从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。

Feb, 2022

通过话语链安全对齐红队大型语言模型

基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。

Aug, 2023

从零开始进行红队攻防测试语言模型的探索、建立和利用

本研究基于高水平、抽象的不良行为规范，通过三步，即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷，从而针对 GPT-2 和 GPT-3 模型进行红队演练，发现可激发有毒或不诚实言论的提示，同时构建并发布包含 20,000 条声明的 CommonClaim 数据集。

Jun, 2023

语言模型不对齐：参数化红队行动揭示隐藏的伤害和偏见

通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏，揭示模型中存在的潜在有害信息和偏见。

Oct, 2023

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

针对阿喀琉斯之踵的调查：生成模型的红队演练

生成模型和红队的攻击策略研究与语言模型的功能能力密切相关，调查还涉及到多模式攻击等新领域，希望这个调查能够为研究领域提供系统的视角并开启新的研究领域。

Mar, 2024

ART：自动红队针对文本到图像模型保护正常用户

大规模的预训练生成模型在生成创意内容方面表现出色，但是存在安全风险，为了保护用户的权益和安全，我们提出了一种名为 ART 的新型自动红队框架，旨在通过结合视觉语言模型和大型语言模型，有效地识别文本转图像模型的漏洞，并通过实验证明了这种方法的有效性和适应性，以及 ART 引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。

May, 2024