Feb, 2025

评分验证器:评估代码和推理中的合成验证

TL;DR本研究解决了当前代码验证方法在评估解决方案正确性方面的不足,提出了一套新的基准以系统性评估合成验证方法的影响。研究发现,现代推理模型在测试用例生成方面显著改善,同时扩大测试用例规模可提高验证准确性,预示着合成验证在代码能力提升中的重要潜力。