Feb, 2024

网络统计:用于评估大型语言模型在网络安全领域的基准数据集

TL;DR介绍了 CyberMetric,这是一个包含 10,000 个问题的基准数据集,通过合作过程结合人类专家知识和大型语言模型(LLMs)来创建问题,主要目标是在网络安全领域中促进人类和不同 LLMs 之间的公平比较,结果显示 LLMs 在几乎所有网络安全方面表现优于人类。