Mar, 2023

通过自然语言反馈训练,改进代码生成

TL;DR本文提出了一种基于自然语言反馈的训练算法 ILF 并在神经程序综合任务中证明了其有效性,ILF 只需要少量人工编写的反馈意见就能提高 LLM 的表现,并且比仅仅基于演示训练的方法更有效和更节省样本。