Oct, 2023

Tuna: 基于大型语言模型的指令调整

TL;DR通过概率排名和上下文排名的方法对已调整过的模型进行微调,最终生成更好回复的模型称为Tuna,能够优于强化学习基线模型,提高对各种任务的性能。