May, 2023

使用编译器生成的强化学习反馈来调整代码模型

TL;DR通过反馈机制在 Large Language Models 中引入编译器和参考程序的验证,提高了自动生成代码的正确性和可执行性,实验结果表明 RLCF 提高了 LLMs 在 Java MBJP 和 MathQA 任务中的表现。