AAAIDec, 2023

利用混合自然语言反馈对语言模型进行微调的 LaFFi

TL;DR该论文介绍了一种名为自然语言反馈微调 LLM(LaFFi)的替代方法,通过要求 LLM 直接预测从评注者那里得到的反馈,显著提高了领域内问答任务的准确性,为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。