May, 2023
使用编译器生成的强化学习反馈来调整代码模型
Tuning Models of Code with Compiler-Generated Reinforcement Learning Feedback
Abhinav Jain, Chima Adiole, Swarat Chaudhuri, Thomas Reps, Chris Jermaine
TL;DR通过反馈机制在 Large Language Models 中引入编译器和参考程序的验证,提高了自动生成代码的正确性和可执行性,实验结果表明 RLCF 提高了 LLMs 在 Java MBJP 和 MathQA 任务中的表现。