Sep, 2023
红队游戏:红队语言模型的博弈理论框架
Red Teaming Game: A Game-Theoretic Framework for Red Teaming Language Models
Chengdong Ma, Ziran Yang, Minquan Gao, Hai Ci, Jun Gao...
TL;DR用于量化 LLMs 的多样化攻击策略和优化方法,并通过构建红队和蓝队语言模型之间的对抗游戏理论基础,提出一种无需人工标注的红队技术,有效提升了大型语言模型的安全性。