BriefGPT.xyz
Ask
alpha
关键词
imitation learning from language feedback
搜索结果 - 1
通过自然语言反馈训练,改进代码生成
本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性,ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现,并且比仅仅基于演示训练的方法更有效和更节省样本。
PDF
a year ago
Prev
Next