基于梯度的红队技术(GBRT)是一种自动生成多样的提示,很可能导致语言模型输出不安全回应的红队技术方法。通过将 LM 回应与安全分类器进行评分并通过冻结的安全分类器和 LM 进行反向传播来更新提示,我们训练了 GBRT。为了提高输入提示的连贯性,我们引入了两个变体,即添加现实损失和微调预训练模型以生成提示,而不是直接学习提示。实验结果表明,与强化学习为基础的红队技术方法相比,GBRT 在找到触发语言模型生成不安全回应的提示方面更为有效,即使该 LM 已被微调以生成更安全的输出。
Jan, 2024
通过好奇心驱动的红队(CRT),我们提出了一种自动生成测试用例的方法,以增加生成的测试用例的覆盖范围,并成功地从经过重度优化以避免有害结果的 LLaMA2 模型中引发有害回应。
Feb, 2024
自然语言处理性能评估变得越来越复杂,本文首次研究了基于人工方法的团队鉴定在机器翻译中的应用,为理解和改进翻译模型的性能迈出了重要一步。
使用红队技术,在基于语言模型的聊天机器人中生成测试用例以检测有害行为,并训练分类器检测模型产生的攻击性内容,从而发现数万条攻击性回复。这是一种在影响用户之前找到和修复各种不良行为的工具。
Feb, 2022
用于量化 LLMs 的多样化攻击策略和优化方法,并通过构建红队和蓝队语言模型之间的对抗游戏理论基础,提出一种无需人工标注的红队技术,有效提升了大型语言模型的安全性。
Sep, 2023
本研究基于高水平、抽象的不良行为规范,通过三步,即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷,从而针对 GPT-2 和 GPT-3 模型进行红队演练,发现可激发有毒或不诚实言论的提示,同时构建并发布包含 20,000 条声明的 CommonClaim 数据集。
Jun, 2023
评估不同提示技术对解答质量的影响,通过红组合作将 LLMs 在基础计算和代数任务上进行测试。结果发现,尽管结构化推理和提供解题示例可以减缓解答质量的恶化,但 gpt-3.5-turbo 和 gpt-4 模型在基础计算和推理任务上表现不佳,即使在红组合作的情况下。
Dec, 2023
文章研究黑盒对抗攻击问题,提出了一种基于贝叶斯优化的高效查询算法,使用维度上采样技术优化了对深度学习模型的优化,并取得了比其他算法更优的效果。
Sep, 2019
生成模型和红队的攻击策略研究与语言模型的功能能力密切相关,调查还涉及到多模式攻击等新领域,希望这个调查能够为研究领域提供系统的视角并开启新的研究领域。
Mar, 2024
自动红队测试对于发现和减轻与大型语言模型(LLMs)恶意使用相关的风险具有重要意义,然而该领域缺乏一个标准化评估框架来严格评估新方法。为解决这个问题,我们引入了 HarmBench,一个用于自动化红队测试的标准化评估框架。使用 HarmBench,我们对 18 种红队测试方法和 33 种目标 LLMs 和防御进行了大规模比较,得出了新的见解。我们还引入了一种高效的对抗训练方法,极大地增强了 LLMs 对各种攻击的鲁棒性,展示了 HarmBench 如何实现攻击和防御的共同发展。我们在该 https URL 上开源了 HarmBench。