Aug, 2024

CYBERSECEVAL 3:推进大语言模型网络安全风险与能力的评估

TL;DR本研究针对评估大语言模型的网络安全风险与能力的缺口,推出了新的安全基准套件CYBERSECEVAL 3。该工作引入了针对进攻性安全能力的新领域,包括自动化社交工程和自主进攻网络操作,且评估结果在不同的背景下进行对比,揭示了安全风险及其缓解效果。