Jul, 2023

RLTF:来自单元测试反馈的强化学习

TL;DR利用强化学习提升大型语言模型的程序合成生成能力,通过采用多粒度的单元测试反馈信号来指导模型生成高质量代码。