May, 2024

ReflectionCoder: 学习反射序列以增强一次性代码生成

TL;DRReflectionCoder 通过整合编译器反馈构建反射序列来提高一次性代码生成性能,并提出了自我蒸馏和动态掩蔽蒸馏来有效利用这些反射序列。实验证明,使用我们的方法微调的模型在三个基准测试上达到了最先进的性能,超过了 GPT-3.5-Turbo 和 Claude-3-opus,并超过了早期的 GPT-4。我们相信这种方法不仅可以在代码领域中发挥作用,还可以在关注最终结果且需要长期推理路径的其他领域中受益。