Feb, 2024

使用无监督方法评估编码 LLMs 的循环正确性

TL;DR通过轮回正确性作为替代的评估方法,我们能够在更广泛的实际软件领域对代码大型语言模型进行评估,并展示了如何将轮回正确性应用于代码合成和编辑中,通过与现有的狭域代码合成基准的模型性能进行强相关性对比,同时在没有昂贵人工标注的情况下,使我们能够扩展到更广泛的领域和任务。