Apr, 2025

OSVBench:操作系统验证中的规范生成任务对大型语言模型的基准测试

TL;DR本研究提出了OSVBench,一个用于评估大型语言模型在生成与操作系统内核验证相关的完整规范代码的新基准。研究展示了当前大型语言模型在操作系统验证的规范生成任务中表现有限,揭示了它们在处理长上下文代码生成任务时的能力差异,从而为未来的研究提供了重要的改进方向。