Dec, 2024
SecBench:针对网络安全领域大语言模型的综合多维基准测试数据集
SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for
LLMs in Cybersecurity
TL;DR本研究针对现有基准测试未能覆盖网络安全这一特定领域的问题,提出了SecBench,一个多维度的基准测试数据集。该数据集通过收集高质量数据和组织网络安全问题设计竞赛,包含了44823道多选题和3087道简答题,提供了丰富的题型和能力层次,以便于对大语言模型进行全面评估。研究结果表明,SecBench是在网络安全领域应用于大语言模型的最大和最全面的基准测试数据集。