Jun, 2023

从零开始进行红队攻防测试语言模型的探索、建立和利用

TL;DR本研究基于高水平、抽象的不良行为规范,通过三步,即探索模型的行为、建立不良行为的衡量标准、利用该标准和既定的红队方法来利用模型缺陷,从而针对 GPT-2 和 GPT-3 模型进行红队演练,发现可激发有毒或不诚实言论的提示,同时构建并发布包含 20,000 条声明的 CommonClaim 数据集。