Jul, 2024

紫色团队模型与对抗性防御培训

TL;DR通过紫色团队与对抗性防御训练(PAD)的引入,以新颖的方式结合红队(攻击)和蓝队(安全训练)技术,我们展示了一种用于保护LLMs的流程,可以主动暴露目标LLM的漏洞并及时适应新兴的安全风险。