Jun, 2024

DafnyBench: 形式软件验证基准

TL;DR我们介绍了 DafnyBench,这是一个用于训练和评估形式软件验证的机器学习系统的最大基准测试。我们测试了 LLM(如 GPT-4 和 Claude 3)生成足够的提示来让 Dafny 形式验证引擎成功验证 750 多个程序,代码行数约为 53,000 行。最佳模型和提示方案的成功率达到 68%,我们量化了通过错误信息反馈重试时成功率的提高,以及所需代码和提示数量的恶化。我们希望 DafnyBench 能够在 LLMs 和验证技术质量提高时,从这个基准得到快速改进。