Aug, 2024

自我进化对抗安全优化的大型语言模型

TL;DR本研究解决了大型语言模型(LLMs)在安全性和防止有害输出方面的挑战,提出了自我进化对抗安全(SEAS)优化框架。通过模型自生成的数据,该框架通过初始化、攻击和对抗优化三个迭代阶段来增强模型的安全性,显著减少对人工测试的依赖,并有效提高LLMs的安全能力。研究表明,经过三次迭代,目标模型的安全性与GPT-4相当,红队模型的攻击成功率显著提升。