Feb, 2024

小而有趣:基于反馈的幽默提炼方法

TL;DR大语言模型通过模仿教师反馈进行提炼来传递知识,但在需要复杂的语言理解和创造力的任务上存在性能差距。本研究通过给大语言模型分配双重角色,作为生成数据的 “教师” 和评估学生表现的 “评论家”,研究了与教师的补充指导相关的影响。实验结果表明,将反馈引入到过程中可以显著缩小小语言模型与其大型对应物之间的性能差距,相比纯粹依靠模仿。因此,我们的研究凸显了在通过提炼传递复杂语言能力时,使用反馈作为额外维度的潜力。