BriefGPT.xyz
Ask
alpha
关键词
unit test feedback
搜索结果 - 1
RLTF:来自单元测试反馈的强化学习
利用强化学习提升大型语言模型的程序合成生成能力,通过采用多粒度的单元测试反馈信号来指导模型生成高质量代码。
PDF
a year ago
Prev
Next