BriefGPT.xyz
Ask
alpha
关键词
benchmark database
搜索结果 - 1
NYU CTF 数据集:用于评估攻击性安全领域语言模型的可扩展开源基准数据集
我们开发了一种创新方法来评估大型语言模型(LLMs)在解决网络安全中的夺旗挑战方面的能力,通过创建一个专门针对这些应用设计的可扩展的开源基准数据库。利用 LLMs 的高级函数调用能力,我们构建了一个完全自动化的系统,具有改进的工作流程和对外
→
PDF
a month ago
Prev
Next