Jul, 2024

DART: 深度对抗自动红队针对LLM安全

TL;DR使用深度对抗自动化红队技术(DART)框架,在目标大型语言模型(LLM)的动态演进过程中,通过红色LLM自动生成对抗性提示,监控全局攻击多样性,并通过主动学习数据选择机制来提高目标LLM的安全性,从而显著降低了目标LLM的安全风险。