Mar, 2023

大规模语言反馈训练语言模型

TL;DR利用语言反馈进行模仿学习 (ILF) 是一种新方法,可以有效提升大型预训练语言模型的摘要性能,并比使用对比反馈或人工摘要的方法更好。