Apr, 2024

警示:通过红队测试全面评估大型语言模型的安全性的综合基准

TL;DR应用 ALERT 基准评估安全性,通过对大规模语言模型进行对抗测试,识别漏洞,改进并提高语言模型的整体安全性。