MART:利用多轮自动红队测试提高 LLM 的安全性
使用 GFlowNet fine-tuning 和二次平滑阶段对攻击者模型进行训练,生成多样且有效的攻击触发词,攻击方法对多种目标大语言模型有效,且通过基于强化学习的红队方法生成的红队训练触发词进行模型安全调优可有效防护。
May, 2024
通过自动生成敌对评估数据集,提供了一种新的方法,用于测试大型语言模型在新的下游应用中生成结果的安全性,为了减少人工工作量并能够更早地集成敌对测试,使用 AI 辅助的可重复和可定制的数据生成和增强流程,生成具有高内容特征多样性的评估数据集,结果显示与一些最先进的工具相比,在概念覆盖和数据质量方面具有很大的潜力。
Nov, 2023
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023
基于梯度的红队技术(GBRT)是一种自动生成多样的提示,很可能导致语言模型输出不安全回应的红队技术方法。通过将 LM 回应与安全分类器进行评分并通过冻结的安全分类器和 LM 进行反向传播来更新提示,我们训练了 GBRT。为了提高输入提示的连贯性,我们引入了两个变体,即添加现实损失和微调预训练模型以生成提示,而不是直接学习提示。实验结果表明,与强化学习为基础的红队技术方法相比,GBRT 在找到触发语言模型生成不安全回应的提示方面更为有效,即使该 LM 已被微调以生成更安全的输出。
Jan, 2024
使用红队技术,在基于语言模型的聊天机器人中生成测试用例以检测有害行为,并训练分类器检测模型产生的攻击性内容,从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。
Feb, 2022
通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏,揭示模型中存在的潜在有害信息和偏见。
Oct, 2023
大规模的预训练生成模型在生成创意内容方面表现出色,但是存在安全风险,为了保护用户的权益和安全,我们提出了一种名为 ART 的新型自动红队框架,旨在通过结合视觉语言模型和大型语言模型,有效地识别文本转图像模型的漏洞,并通过实验证明了这种方法的有效性和适应性,以及 ART 引入的三个大规模红队数据集用于研究与文本转图像模型相关的安全风险。
May, 2024
通过好奇心驱动的红队(CRT),我们提出了一种自动生成测试用例的方法,以增加生成的测试用例的覆盖范围,并成功地从经过重度优化以避免有害结果的 LLaMA2 模型中引发有害回应。
Feb, 2024