Aug, 2024

DOMAINEVAL:自动构建的多领域代码生成基准

TL;DR本文针对当前代码基准主要集中于常见编码任务的问题,提出了一种多领域代码基准DOMAINEVAL,以全面评估大型语言模型(LLMs)的编码能力。研究发现LLMs在计算任务上表现良好,但在密码学和系统编码任务上存在显著不足,提供了进一步研究的方向。