本文介绍了对语言模型进行红队测试的早期探索,尝试发现、测量并减少它们可能产生的潜在危害输出。在实验中发现,随着模型规模的扩大,使用人类反馈进行强化学习的模型难以被红队攻击,并提供数据集和方法说明以便进行共同探讨。
Aug, 2022
通过好奇心驱动的红队(CRT),我们提出了一种自动生成测试用例的方法,以增加生成的测试用例的覆盖范围,并成功地从经过重度优化以避免有害结果的 LLaMA2 模型中引发有害回应。
Feb, 2024
本研究基于高水平、抽象的不良行为规范,通过三步,即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷,从而针对 GPT-2 和 GPT-3 模型进行红队演练,发现可激发有毒或不诚实言论的提示,同时构建并发布包含 20,000 条声明的 CommonClaim 数据集。
Jun, 2023
通过红队测试针对语言模型的自动化测试用例生成方法,实现语言模型的可靠部署,检测其鲁棒性和失败模式。
Oct, 2023
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
自动检测大型语言模型(如 ChatGPT 和 GPT-4)潜在性别偏见的研究,提出了一种自动生成测试用例的方法,并通过这些测试用例来减轻模型偏见,从而实现更公正的回复。
本文研究了如何攻击已有的机器文字生成检测算法,并验证了所有被测试的检测器的鲁棒性。结果表明,开发更加鲁棒的机器文字检测系统有着迫切的需求。
May, 2023
通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏,揭示模型中存在的潜在有害信息和偏见。
通过提出的第一个 LLM 模型 TroubleLLM 在 LLM 安全问题上生成可控的测试提示,广泛的实验和人工评估表明 TroubleLLM 在生成质量和生成可控性上的优越性。
自然语言处理性能评估变得越来越复杂,本文首次研究了基于人工方法的团队鉴定在机器翻译中的应用,为理解和改进翻译模型的性能迈出了重要一步。
Jan, 2024