Sep, 2023

红队游戏:红队语言模型的博弈理论框架

TL;DR用于量化 LLMs 的多样化攻击策略和优化方法,并通过构建红队和蓝队语言模型之间的对抗游戏理论基础,提出一种无需人工标注的红队技术,有效提升了大型语言模型的安全性。