Jul, 2024

DART: 深度对抗自动红队针对 LLM 安全

TL;DR使用深度对抗自动化红队技术(DART)框架,在目标大型语言模型(LLM)的动态演进过程中,通过红色 LLM 自动生成对抗性提示,监控全局攻击多样性,并通过主动学习数据选择机制来提高目标 LLM 的安全性,从而显著降低了目标 LLM 的安全风险。