STAR: 社会技术方法在红队化语言模型中的应用
本文介绍了对语言模型进行红队测试的早期探索,尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现,随着模型规模的扩大,使用人类反馈进行强化学习的模型难以被红队攻击,并提供数据集和方法说明以便进行共同探讨。
Aug, 2022
在将大型语言模型整合到社会中时,对一套提示的鲁棒性越来越重要,以确保在高差异环境中保持可靠性。本文提出了 ASSERT(自动化安全场景红队演练),包括三种方法:语义对齐增强、目标引导和对抗性知识注入。为了进行鲁棒安全评估,我们将这些方法应用于 AI 安全关键领域,以算法生成一套涵盖多样的鲁棒性设置的测试提示。我们将提示分为四个安全领域,以对领域如何影响模型性能进行精细分析。尽管现有最先进模型具有专用的安全措施,但我们发现在语义相关场景中,绝对分类准确率存在高达 11% 的统计学显著性差异,零样本对抗设置中的错误率高达 19% 的绝对误差,给用户的身体安全带来了担忧。
Oct, 2023
使用红队技术,在基于语言模型的聊天机器人中生成测试用例以检测有害行为,并训练分类器检测模型产生的攻击性内容,从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。
Feb, 2022
本研究基于高水平、抽象的不良行为规范,通过三步,即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷,从而针对 GPT-2 和 GPT-3 模型进行红队演练,发现可激发有毒或不诚实言论的提示,同时构建并发布包含 20,000 条声明的 CommonClaim 数据集。
Jun, 2023
通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏,揭示模型中存在的潜在有害信息和偏见。
Oct, 2023
生成模型和红队的攻击策略研究与语言模型的功能能力密切相关,调查还涉及到多模式攻击等新领域,希望这个调查能够为研究领域提供系统的视角并开启新的研究领域。
Mar, 2024
大规模的预训练生成模型在生成创意内容方面表现出色,但是存在安全风险,为了保护用户的权益和安全,我们提出了一种名为 ART 的新型自动红队框架,旨在通过结合视觉语言模型和大型语言模型,有效地识别文本转图像模型的漏洞,并通过实验证明了这种方法的有效性和适应性,以及 ART 引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。
May, 2024