Apr, 2023

大型语言模型是代码生成领域最先进的评估器

TL;DR本研究提出了一个基于GPT-3.5的评估框架,用于评估代码生成的功能正确性和人类偏好,能够在不需要测试oracle或参考文献的情况下,达到比CodeBERTScore更高的准确性和一致性。