May, 2024

安全性:为网络安全咨询评估生成式大型语言模型

TL;DR大型语言模型(LLMs)在网络安全应用中显示出潜力,但也因幻觉和缺乏真实性等问题导致信心下降。现有的基准测试提供了一般评估,但不能充分解决 LLMs 在网络安全特定任务中的实际应用方面的问题。为了填补这个空白,我们引入了 SECURE(安全提取、理解与推理评估)基准测试,该基准测试旨在评估 LLMs 在现实网络安全场景中的性能。SECURE 包括六个数据集,重点关注工业控制系统领域,以评估基于行业标准来源的知识提取、理解和推理。我们的研究评估了七种最先进的模型在这些任务上的表现,为改进 LLMs 作为网络咨询工具的可靠性提供了见解和建议。