BriefGPT.xyz
Ask
alpha
关键词
automated red teaming technique
搜索结果 - 1
红队游戏:红队语言模型的博弈理论框架
用于量化 LLMs 的多样化攻击策略和优化方法,并通过构建红队和蓝队语言模型之间的对抗游戏理论基础,提出一种无需人工标注的红队技术,有效提升了大型语言模型的安全性。
PDF
9 months ago
Prev
Next