Aug, 2024

Cybench:评估语言模型网络安全能力和风险的框架

TL;DR本研究解决了语言模型(LM)在网络安全中针对识别漏洞和执行攻击能力评估的不足。提出的Cybench框架涵盖40个专业级的捕旗(CTF)任务,创设了更高效的评估方法,从而提升了评估结果的准确性和有效性。最显著的发现是,通过引入子任务,模型在完成任务的成功率上显著提高3.2%。