Jun, 2024

RepoQA:评估长上下文的代码理解

TL;DRRepoQA 是一个多语言且综合性的基准测试,评估了 LLMs 在长上下文代码理解上的能力,并展示了开源和专有模型之间仍存在着一小段差距,不同模型在不同编程语言上具有良好的表现,而没有注释的代码可能会更好地被模型理解。