Mar, 2024

针对阿喀琉斯之踵的调查:生成模型的红队演练

TL;DR生成模型和红队的攻击策略研究与语言模型的功能能力密切相关,调查还涉及到多模式攻击等新领域,希望这个调查能够为研究领域提供系统的视角并开启新的研究领域。