Jun, 2024

NYU CTF 数据集:用于评估攻击性安全领域语言模型的可扩展开源基准数据集

TL;DR我们开发了一种创新方法来评估大型语言模型(LLMs)在解决网络安全中的夺旗挑战方面的能力,通过创建一个专门针对这些应用设计的可扩展的开源基准数据库。利用 LLMs 的高级函数调用能力,我们构建了一个完全自动化的系统,具有改进的工作流程和对外部工具调用的支持。通过提供专门的数据集,我们的项目为开发、测试和改进基于 LLMs 的漏洞检测和解决方法提供了理想的平台。通过在这些挑战上评估 LLMs 并与人类表现进行比较,我们可以洞察 AI 驱动的网络安全解决方案在现实世界威胁管理方面的潜力。