Oct, 2024
CodeJudge:使用大型语言模型评估代码生成
CodeJudge: Evaluating Code Generation with Large Language Models
TL;DR本研究解决了大型语言模型生成代码后,如何可靠评估其语义正确性的问题。提出的CodeJudge框架独创性地利用LLM进行无测试用例的代码评估,研究了不同的“慢思考”引导方法以获得深入可靠的评估。研究结果表明,CodeJudge在多数设置上表现优于现有方法,尤其在较小模型Llama-3-8B-Instruct上依然超越SOTA GPT-3.5评估方法,显示出其显著的潜在影响。